論文の概要: NeurAll: Towards a Unified Visual Perception Model for Automated Driving
- arxiv url: http://arxiv.org/abs/1902.03589v3
- Date: Sat, 9 Mar 2024 23:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 19:26:20.033972
- Title: NeurAll: Towards a Unified Visual Perception Model for Automated Driving
- Title(参考訳): NeurAll: 自動走行のための統一視覚知覚モデルを目指して
- Authors: Ganesh Sistu, Isabelle Leang, Sumanth Chennupati, Senthil Yogamani,
Ciaran Hughes, Stefan Milz and Samir Rawashdeh
- Abstract要約: 本稿では,複数のタスクを同時に学習するためのマルチタスクネットワーク設計を提案する。
自動運転システムの主なボトルネックは、デプロイメントハードウェアで利用可能な限られた処理能力である。
- 参考スコア(独自算出の注目度): 8.49826472556323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) are successfully used for the important
automotive visual perception tasks including object recognition, motion and
depth estimation, visual SLAM, etc. However, these tasks are typically
independently explored and modeled. In this paper, we propose a joint
multi-task network design for learning several tasks simultaneously. Our main
motivation is the computational efficiency achieved by sharing the expensive
initial convolutional layers between all tasks. Indeed, the main bottleneck in
automated driving systems is the limited processing power available on
deployment hardware. There is also some evidence for other benefits in
improving accuracy for some tasks and easing development effort. It also offers
scalability to add more tasks leveraging existing features and achieving better
generalization. We survey various CNN based solutions for visual perception
tasks in automated driving. Then we propose a unified CNN model for the
important tasks and discuss several advanced optimization and architecture
design techniques to improve the baseline model. The paper is partly review and
partly positional with demonstration of several preliminary results promising
for future research. We first demonstrate results of multi-stream learning and
auxiliary learning which are important ingredients to scale to a large
multi-task model. Finally, we implement a two-stream three-task network which
performs better in many cases compared to their corresponding single-task
models, while maintaining network size.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、物体認識、動きと深さの推定、視覚SLAMなどの重要な視覚認知タスクに成功している。
しかし、これらのタスクは一般的に独立して探索され、モデル化される。
本稿では,複数のタスクを同時に学習するためのマルチタスクネットワーク設計を提案する。
我々の主な動機は、全てのタスク間で高価な初期畳み込み層を共有することで達成される計算効率である。
実際、自動運転システムの主なボトルネックは、デプロイメントハードウェアで利用可能な限られた処理能力である。
また、いくつかのタスクの正確性を改善し、開発作業の緩和に他の利点があるという証拠もある。
また、既存の機能を活用し、より良い一般化を達成するために、より多くのタスクを追加する拡張性も提供する。
自動走行における視覚知覚タスクに対する様々なCNNベースのソリューションを調査した。
次に,重要なタスクに対する統一CNNモデルを提案し,ベースラインモデルを改善するためのいくつかの高度な最適化とアーキテクチャ設計手法について議論する。
本論文は, 今後の研究を約束するいくつかの予備的な成果を実証するために, 一部をレビューし, 一部を位置づけている。
まず,大規模マルチタスクモデルにスケールする上で重要な要素であるマルチストリーム学習と補助学習の結果を示す。
最後に、2ストリーム3タスクネットワークを実装し、ネットワークサイズを維持しながら、対応するシングルタスクモデルと比較して多くのケースで性能が向上する。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - EMA-Net: Efficient Multitask Affinity Learning for Dense Scene
Predictions [7.01633634930651]
マルチタスク親和性学習ネットワーク(EMA-Net)について紹介する。
EMA-Netは、我々の新しいクロスタスク親和性学習(CTAL)モジュールを用いて、ローカル、グローバル、およびクロスタスクのインタラクションを適応的にキャプチャする。
この結果から,CNNを用いたデコーダに着目したモデルに対して,最先端のMTL性能を実現することができた。
論文 参考訳(メタデータ) (2024-01-20T05:31:47Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文 参考訳(メタデータ) (2023-03-25T10:16:53Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - Backbones-Review: Feature Extraction Networks for Deep Learning and Deep
Reinforcement Learning Approaches [3.255610188565679]
CNNは、大規模なデータサイズに取り組むだけでなく、特定のタスクのさまざまなシナリオをカバーすることができる。
多くのネットワークが提案され、あらゆるAIタスクでDLモデルに使用される有名なネットワークとなっている。
バックボーンは、他の多くのタスクでトレーニングされた既知のネットワークであり、その効果を実証する。
論文 参考訳(メタデータ) (2022-06-16T09:18:34Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - High Efficiency Pedestrian Crossing Prediction [0.0]
歩行者の横断意図を予測する最先端の手法は、入力として複数の情報ストリームに依存することが多い。
入力には歩行者のフレームのみのネットワークを導入する。
実験は、我々のモデルが常に優れたパフォーマンスを提供することを検証します。
論文 参考訳(メタデータ) (2022-04-04T21:37:57Z) - Multi-Task Learning with Sequence-Conditioned Transporter Networks [67.57293592529517]
シーケンスコンディショニングと重み付きサンプリングのレンズによるマルチタスク学習の実現を目指している。
合成タスクを対象とした新しいベンチマークであるMultiRavensを提案する。
次に,視覚に基づくエンドツーエンドシステムアーキテクチャであるSequence-Conditioned Transporter Networksを提案する。
論文 参考訳(メタデータ) (2021-09-15T21:19:11Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。