論文の概要: Scene Understanding for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2105.04905v1
- Date: Tue, 11 May 2021 09:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 21:29:43.248836
- Title: Scene Understanding for Autonomous Driving
- Title(参考訳): 自動運転のためのシーン理解
- Authors: \`Oscar Lorente, Ian Riera, Aditya Rana
- Abstract要約: Detectron2で提示されたRetinaNet, Faster R-CNN, Mask R-CNNの異なる構成の挙動を検討する。
関心のあるデータセット上でこれらのモデルを微調整した後、パフォーマンスの大幅な改善を観察します。
文脈外のデータセットを用いて異常な状況下で推論を行い、興味深い結果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To detect and segment objects in images based on their content is one of the
most active topics in the field of computer vision. Nowadays, this problem can
be addressed using Deep Learning architectures such as Faster R-CNN or YOLO,
among others. In this paper, we study the behaviour of different configurations
of RetinaNet, Faster R-CNN and Mask R-CNN presented in Detectron2. First, we
evaluate qualitatively and quantitatively (AP) the performance of the
pre-trained models on KITTI-MOTS and MOTSChallenge datasets. We observe a
significant improvement in performance after fine-tuning these models on the
datasets of interest and optimizing hyperparameters. Finally, we run inference
in unusual situations using out of context datasets, and present interesting
results that help us understanding better the networks.
- Abstract(参考訳): 画像中のオブジェクトをそのコンテンツに基づいて検出・分割することは、コンピュータビジョンの分野でもっとも活発なトピックの1つだ。
今日では、より高速なR-CNNやYOLOといったディープラーニングアーキテクチャを使ってこの問題に対処できる。
本稿では, RetinaNet, Faster R-CNN, Mask R-CNNの異なる構成の動作について検討する。
まず,KITTI-MOTSおよびMOTSChallengeデータセットを用いた事前学習モデルの質的,定量的な評価を行った。
興味のあるデータセットに基づいてこれらのモデルを微調整し、ハイパーパラメーターを最適化した後、性能を著しく改善する。
最後に、コンテキストデータセットを使い、異常な状況で推論を実行し、ネットワークをよりよく理解するための興味深い結果を提示します。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Deep Learning Approaches for Human Action Recognition in Video Data [0.8080830346931087]
本研究は、この課題に対処するために、様々なディープラーニングモデルの詳細な分析を行う。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、Two-Stream ConvNetsに焦点を当てる。
本研究の結果は,頑健な人間の行動認識を実現するための複合モデルの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-03-11T15:31:25Z) - Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。
大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文 参考訳(メタデータ) (2023-12-31T11:38:50Z) - Influencer Detection with Dynamic Graph Neural Networks [56.1837101824783]
インフルエンサー検出のための動的グラフニューラルネットワーク(GNN)の構成について検討する。
GNNにおける深層多面的注意と時間特性の符号化が性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2022-11-15T13:00:25Z) - Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution
Detection [55.028065567756066]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。
本稿では,特徴量の分布をモデル化した不確実な定量化手法を提案する。
バッチアンサンブルニューラルネットワーク(BE-SNN)の構築と機能崩壊問題の克服を目的として,効率的なアンサンブル機構,すなわちバッチアンサンブルを組み込んだ。
We show that BE-SNNs yield superior performance on the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionM。
論文 参考訳(メタデータ) (2022-06-26T16:00:22Z) - Revisiting Facial Key Point Detection: An Efficient Approach Using Deep
Neural Networks [0.0]
モデルサイズ,パラメータ,推論時間の観点から,効率的なディープラーニングモデルを構築した。
MobileNetV2アーキテクチャは最低のRMSEと推論時間を生み出した。
手動で最適化されたCNNアーキテクチャは、Auto Kerasのチューニングアーキテクチャと同様に実行された。
論文 参考訳(メタデータ) (2022-05-14T19:49:03Z) - Comparison Analysis of Traditional Machine Learning and Deep Learning
Techniques for Data and Image Classification [62.997667081978825]
本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。
まず、視覚語モデルと深部畳み込みニューラルネットワーク(DCNN)の理論的背景を示す。
次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。
論文 参考訳(メタデータ) (2022-04-11T11:34:43Z) - Network Comparison Study of Deep Activation Feature Discriminability
with Novel Objects [0.5076419064097732]
最先端のコンピュータビジョンアルゴリズムは、Deep Neural Networks(DNN)を特徴抽出に取り入れ、Deep Convolutional Activation Features(DeCAF)を作成する。
本研究では、6つの主要な視覚認識DNNアーキテクチャのDeCAF空間に符号化された新しい物体の視覚的外観の一般的な識別可能性について分析する。
論文 参考訳(メタデータ) (2022-02-08T07:40:53Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Inferring Convolutional Neural Networks' accuracies from their
architectural characterizations [0.0]
CNNのアーキテクチャと性能の関係について検討する。
本稿では,2つのコンピュータビジョンに基づく物理問題において,その特性がネットワークの性能を予測できることを示す。
我々は機械学習モデルを用いて、トレーニング前にネットワークが一定のしきい値精度よりも優れた性能を発揮できるかどうかを予測する。
論文 参考訳(メタデータ) (2020-01-07T16:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。