論文の概要: Learning to Exploit Multiple Vision Modalities by Using Grafted Networks
- arxiv url: http://arxiv.org/abs/2003.10959v3
- Date: Wed, 22 Jul 2020 11:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 08:33:18.941519
- Title: Learning to Exploit Multiple Vision Modalities by Using Grafted Networks
- Title(参考訳): グラフトネットワークを用いたマルチビジョンモダリティ活用のための学習
- Authors: Yuhuang Hu and Tobi Delbruck and Shih-Chii Liu
- Abstract要約: 新しい視覚センサーは、従来の強度カメラから入手できない情報を提供する。
現在の強力なディープニューラルネットワークでこれらのセンサーを使用するための障害は、大きなラベル付きトレーニングデータセットがないことである。
本稿では,非伝統的な視覚入力によって駆動される新しいフロントエンドネットワークが,インテンシティフレームを処理する事前訓練されたディープネットワークのフロントエンドネットワークを置き換えるネットワークグラフ化アルゴリズム(NGA)を提案する。
- 参考スコア(独自算出の注目度): 16.562442770255032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel vision sensors such as thermal, hyperspectral, polarization, and event
cameras provide information that is not available from conventional intensity
cameras. An obstacle to using these sensors with current powerful deep neural
networks is the lack of large labeled training datasets. This paper proposes a
Network Grafting Algorithm (NGA), where a new front end network driven by
unconventional visual inputs replaces the front end network of a pretrained
deep network that processes intensity frames. The self-supervised training uses
only synchronously-recorded intensity frames and novel sensor data to maximize
feature similarity between the pretrained network and the grafted network. We
show that the enhanced grafted network reaches competitive average precision
(AP50) scores to the pretrained network on an object detection task using
thermal and event camera datasets, with no increase in inference costs.
Particularly, the grafted network driven by thermal frames showed a relative
improvement of 49.11% over the use of intensity frames. The grafted front end
has only 5--8% of the total parameters and can be trained in a few hours on a
single GPU equivalent to 5% of the time that would be needed to train the
entire object detector from labeled data. NGA allows new vision sensors to
capitalize on previously pretrained powerful deep models, saving on training
cost and widening a range of applications for novel sensors.
- Abstract(参考訳): サーマル、ハイパースペクトル、偏光、イベントカメラなどの新しい視覚センサは、従来の強度カメラでは利用できない情報を提供する。
現在の強力なディープニューラルネットワークでこれらのセンサーを使用するための障害は、大きなラベル付きトレーニングデータセットがないことである。
本稿では,従来型でない視覚入力で駆動される新しいフロントエンドネットワークが,強度フレームを処理する事前学習されたディープネットワークのフロントエンドネットワークを置き換えるネットワークグラフトアルゴリズム(nga)を提案する。
自己教師付きトレーニングは、同期記録された強度フレームと新しいセンサデータのみを使用して、事前訓練されたネットワークとグラフトされたネットワークとの間の特徴的類似性を最大化する。
拡張グラフトネットワークは,熱カメラとイベントカメラのデータセットを用いて対象検出タスクで事前学習したネットワークに対して,推定コストを増加させることなく,競合平均精度(ap50)に達した。
特に, 熱フレームによるグラフトネットワークは, 強度フレームを用いた場合と比較して, 相対的に49.11%向上した。
移植されたフロントエンドは、全パラメータの5--8%しか持たず、ラベル付きデータからオブジェクト検出全体をトレーニングするために必要な時間の5%に相当する1つのGPUで、数時間でトレーニングすることができる。
NGAは、これまで訓練されていた強力な深層モデルに新たな視覚センサーを付加し、トレーニングコストを削減し、新しいセンサーの幅広い応用範囲を広げる。
関連論文リスト
- A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation [3.355813093377501]
イベントカメラは従来のデジタルカメラとは異なる動作をし、データを継続的にキャプチャし、時間、位置、光強度を符号化するバイナリスパイクを生成する。
これは、イベントカメラに適した革新的でスパイク対応のアルゴリズムの開発を必要とする。
スパイクカメラデータから深度推定を行うために,純粋にスパイク駆動のスパイク変圧器ネットワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T11:32:53Z) - RN-Net: Reservoir Nodes-Enabled Neuromorphic Vision Sensing Network [7.112892720740359]
イベントベースのカメラは、生物学的視覚系のスパイクと非同期スパイク表現にインスパイアされている。
本稿では,局所的および大域的貯水池の動的時間エンコーディングと統合された単純な畳み込み層に基づくニューラルネットワークアーキテクチャを提案する。
RN-Netはこれまでに報告されたDV128 Gestureの99.2%の最高精度を達成しており、DVS Lipデータセットの67.5%の最高精度の1つである。
論文 参考訳(メタデータ) (2023-03-19T21:20:45Z) - Optical flow estimation from event-based cameras and spiking neural
networks [0.4899818550820575]
イベントベースセンサーはスパイキングニューラルネットワーク(SNN)に最適である
教師付きトレーニング後,高密度光フロー推定が可能なU-NetライクなSNNを提案する。
分離可能な畳み込みにより、我々は、合理的に正確な光フロー推定が得られる光モデルを開発することができた。
論文 参考訳(メタデータ) (2023-02-13T16:17:54Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Pixel Difference Networks for Efficient Edge Detection [71.03915957914532]
本稿では,Pixel Difference Network (PiDiNet) という軽量かつ効率的なエッジ検出アーキテクチャを提案する。
BSDS500、NYUD、Multicueのデータセットに関する大規模な実験が、その効果を示すために提供されている。
0.1M未満のパラメータを持つPiDiNetのより高速なバージョンは、200FPSのアーティファクトで同等のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2021-08-16T10:42:59Z) - Dataset for eye-tracking tasks [0.0]
本稿では、視線追跡タスクのための畳み込みニューラルネットワークのカスタムモデルのトレーニングに適したデータセットを提案する。
このデータセットは1万枚の眼画像を416ピクセルから416ピクセルに拡張している。
この原稿は、視線追跡装置用のデータセットを作成するためのガイドとみなすことができる。
論文 参考訳(メタデータ) (2021-06-01T23:54:23Z) - Post-training deep neural network pruning via layer-wise calibration [70.65691136625514]
本論文では,自動合成フラクタル画像に基づくコンピュータビジョンモデルに対するデータフリーな拡張を提案する。
実データを使用する場合は、トレーニング後の設定で65%の間隔で8ビットの精度でImageNet上のResNet50モデルを取得できます。
論文 参考訳(メタデータ) (2021-04-30T14:20:51Z) - Fusion-FlowNet: Energy-Efficient Optical Flow Estimation using Sensor
Fusion and Deep Fused Spiking-Analog Network Architectures [7.565038387344594]
本稿では,フレームベースとイベントベースの両方のセンサを用いたエネルギー効率の高い光フロー推定のためのセンサ融合フレームワークを提案する。
我々のネットワークは、高価なビデオアノテーションを避けるために教師なし学習を用いてエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-03-19T02:03:33Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。