論文の概要: A Comparison of Deep Saliency Map Generators on Multispectral Data in
Object Detection
- arxiv url: http://arxiv.org/abs/2108.11767v1
- Date: Thu, 26 Aug 2021 12:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:00:51.269888
- Title: A Comparison of Deep Saliency Map Generators on Multispectral Data in
Object Detection
- Title(参考訳): 物体検出における多スペクトルデータに基づく深度分布マップ生成器の比較
- Authors: Jens Bayer, David M\"unch, Michael Arens
- Abstract要約: 本研究は, それらの地図が異なるスペクトル間でどのように異なるかについて, 3つのサリエンシマップ生成法について検討する。
現実的な問題として、我々は自律運転のための赤外線および視覚スペクトルにおける物体検出を選択した。
その結果,赤外線と視覚のアクティベーションマップの違いが判明した。
さらに、赤外線と視覚データの両方による高度なトレーニングは、ネットワークの出力を改善するだけでなく、唾液マップのより焦点を絞ったスポットにもつながります。
- 参考スコア(独自算出の注目度): 9.264502124445348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks, especially convolutional deep neural networks, are
state-of-the-art methods to classify, segment or even generate images, movies,
or sounds. However, these methods lack of a good semantic understanding of what
happens internally. The question, why a COVID-19 detector has classified a
stack of lung-ct images as positive, is sometimes more interesting than the
overall specificity and sensitivity. Especially when human domain expert
knowledge disagrees with the given output. This way, human domain experts could
also be advised to reconsider their choice, regarding the information pointed
out by the system. In addition, the deep learning model can be controlled, and
a present dataset bias can be found. Currently, most explainable AI methods in
the computer vision domain are purely used on image classification, where the
images are ordinary images in the visible spectrum. As a result, there is no
comparison on how the methods behave with multimodal image data, as well as
most methods have not been investigated on how they behave when used for object
detection. This work tries to close the gaps. Firstly, investigating three
saliency map generator methods on how their maps differ across the different
spectra. This is achieved via accurate and systematic training. Secondly, we
examine how they behave when used for object detection. As a practical problem,
we chose object detection in the infrared and visual spectrum for autonomous
driving. The dataset used in this work is the Multispectral Object Detection
Dataset, where each scene is available in the FIR, MIR and NIR as well as
visual spectrum. The results show that there are differences between the
infrared and visual activation maps. Further, an advanced training with both,
the infrared and visual data not only improves the network's output, it also
leads to more focused spots in the saliency maps.
- Abstract(参考訳): ディープニューラルネットワーク、特に畳み込み型ディープニューラルネットワークは、画像、映画、音声を分類、分割、あるいは生成する最新の手法である。
しかし、これらの手法は内部で何が起こるかのセマンティックな理解が不十分である。
なぜcovid-19検出器が肺ct画像の山を陽性と分類したのかという疑問は、全体的な特異性と感度よりも興味深い。
特に人間のドメインエキスパートの知識が与えられた出力と一致しない場合。
このようにして、人間のドメインの専門家は、システムによって指摘される情報に関して、自らの選択を再考することもできます。
さらに、ディープラーニングモデルを制御することもでき、現在のデータセットバイアスを見つけることができる。
現在、コンピュータビジョン領域のほとんどの説明可能なAIメソッドは、画像の分類に純粋に使われており、画像は可視スペクトルの通常の画像である。
その結果、マルチモーダル画像データに対してどのように振る舞うかは比較されず、オブジェクト検出に使用する場合の振舞については、ほとんどの方法が検討されていない。
この仕事はギャップを埋めようとします。
まず,3つのサリエンシマップ生成法について,異なるスペクトル間でどのように異なるかを検討した。
これは正確かつ体系的な訓練によって達成される。
次に,物体検出に用いる際の挙動について検討する。
実用的課題として、自律運転のための赤外線および視覚スペクトルでの物体検出を選択した。
この研究で使用されるデータセットはMultispectral Object Detection Datasetであり、各シーンはFIR、MIR、NIR、および視覚スペクトルで利用可能である。
その結果,赤外線と視覚アクティベーションマップには違いが認められた。
さらに、赤外線と視覚データの両方による高度なトレーニングは、ネットワークの出力を改善するだけでなく、唾液マップのより焦点を絞ったスポットにもつながります。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - Semantic Segmentation for Thermal Images: A Comparative Survey [0.0]
セマンティックセグメンテーションにおける赤外線スペクトルの利用には、自律運転、医療画像、農業、防衛産業など、多くの実世界のユースケースがある。
1つのアプローチは、可視光と赤外線のスペクトル画像の両方を入力として使用することである。
もう1つのアプローチは、熱画像のみを使用することで、より小さなユースケースでハードウェアコストを削減できる。
論文 参考訳(メタデータ) (2022-05-26T11:32:15Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Multispectral Satellite Data Classification using Soft Computing
Approach [5.3971200250581814]
本稿では,オブジェクトの識別のためのグリッド密度に基づくクラスタリング手法を提案する。
本稿では,ルール帰納型機械学習アルゴリズムを用いて衛星画像データを分類する手法を提案する。
論文 参考訳(メタデータ) (2022-03-21T17:25:09Z) - Learning Hierarchical Graph Representation for Image Manipulation
Detection [50.04902159383709]
画像操作検出の目的は、画像内の操作された領域を特定し、特定することである。
最近のアプローチでは、画像に残っている改ざんするアーティファクトをキャプチャするために、洗練された畳み込みニューラルネットワーク(CNN)が採用されている。
本稿では2つの並列分岐からなる階層型グラフ畳み込みネットワーク(HGCN-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:25Z) - Understanding Character Recognition using Visual Explanations Derived
from the Human Visual System and Deep Networks [6.734853055176694]
深層ニューラルネットワークの情報収集戦略における合同性,あるいはその欠如について検討する。
深層学習モデルは、人間が正しく分類された文字に対して固定した文字の類似した領域を考慮に入れた。
本稿では、視線追跡実験から得られた視覚的固定マップを、モデルが関連する文字領域に焦点を合わせるための監督入力として用いることを提案する。
論文 参考訳(メタデータ) (2021-08-10T10:09:37Z) - Computational efficient deep neural network with difference attention
maps for facial action unit detection [3.73202122588308]
本稿では,差分画像に基づくCEDNNモデルと空間アテンションマップを提案する。
多くの実験結果から、提案したCEDNNは明らかにdisFA+およびCK+データセットの従来のディープラーニング手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-11-24T13:34:58Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。