論文の概要: VTR: An Optimized Vision Transformer for SAR ATR Acceleration on FPGA
- arxiv url: http://arxiv.org/abs/2404.04527v1
- Date: Sat, 6 Apr 2024 06:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:49:00.357727
- Title: VTR: An Optimized Vision Transformer for SAR ATR Acceleration on FPGA
- Title(参考訳): VTR:FPGA上でのSAR ATR高速化のための最適化ビジョン変換器
- Authors: Sachini Wickramasinghe, Dhruv Parikh, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, Carl Busart,
- Abstract要約: ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンアプリケーションにおける最先端技術である。
我々は、事前トレーニングなしで、小さなデータセットで直接トレーニングできる軽量なViTモデルを開発した。
我々は,VTR (ViT for SAR ATR) と呼ぶ提案モデルを,広く使用されている3つのSARデータセット上で評価した。
- 参考スコア(独自算出の注目度): 2.8595179027282907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR) is a key technique used in military applications like remote-sensing image recognition. Vision Transformers (ViTs) are the current state-of-the-art in various computer vision applications, outperforming their CNN counterparts. However, using ViTs for SAR ATR applications is challenging due to (1) standard ViTs require extensive training data to generalize well due to their low locality; the standard SAR datasets, however, have a limited number of labeled training data which reduces the learning capability of ViTs; (2) ViTs have a high parameter count and are computation intensive which makes their deployment on resource-constrained SAR platforms difficult. In this work, we develop a lightweight ViT model that can be trained directly on small datasets without any pre-training by utilizing the Shifted Patch Tokenization (SPT) and Locality Self-Attention (LSA) modules. We directly train this model on SAR datasets which have limited training samples to evaluate its effectiveness for SAR ATR applications. We evaluate our proposed model, that we call VTR (ViT for SAR ATR), on three widely used SAR datasets: MSTAR, SynthWakeSAR, and GBSAR. Further, we propose a novel FPGA accelerator for VTR, in order to enable deployment for real-time SAR ATR applications.
- Abstract(参考訳): 合成開口レーダ(SAR) 自動目標認識(ATR)は、リモートセンシング画像認識のような軍事用途で使用される重要な技術である。
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンアプリケーションにおける最先端技術であり、CNNよりも優れている。
しかし,SAR ATR アプリケーションに ViT を使うことは,(1) 標準の ViT が局所性が低いため,広範囲なトレーニングデータを必要とすること,(2) 標準の SAR データセットは,ViT の学習能力を低下させるラベル付きトレーニングデータに制限があること,(2) パラメータ数が高く,リソース制約の SAR プラットフォームへの展開が困難であること,などの理由から,困難である。
本研究では,SPT(Shifted Patch Tokenization)モジュールとLSA(Locality Self-Attention)モジュールを利用することで,事前トレーニングなしに,小さなデータセット上で直接トレーニング可能な軽量ViTモデルを開発する。
我々は、SAR ATRアプリケーションの有効性を評価するために、限られたトレーニングサンプルを持つSARデータセット上で、このモデルを直接訓練する。
MSTAR, SynthWakeSAR, GBSARの3つのSARデータセット上で, VTR (ViT for SAR ATR) と呼ぶ提案モデルを評価する。
さらに,リアルタイムSAR ATRアプリケーションのデプロイを実現するために,VTR用のFPGAアクセラレータを提案する。
関連論文リスト
- RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer [2.1186155813156926]
RT-DETRv2は以前の最先端のリアルタイム検出器RT-DETR上に構築されている。
柔軟性を向上させるために,異なるスケールの特徴に対して,異なる数のサンプリングポイントを設定することを提案する。
実用性を高めるため, Grid_sample演算子を置き換えるために,任意の離散サンプリング演算子を提案する。
論文 参考訳(メタデータ) (2024-07-24T10:20:19Z) - Towards SAR Automatic Target Recognition MultiCategory SAR Image Classification Based on Light Weight Vision Transformer [11.983317593939688]
本稿では,SAR画像の分類に軽量な視覚変換器モデルを適用しようとする。
構造全体がオープンアクセスされたSARデータセットによって検証された。
論文 参考訳(メタデータ) (2024-05-18T11:24:52Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Benchmarking Deep Learning Classifiers for SAR Automatic Target
Recognition [7.858656052565242]
本稿では,複数のSARデータセットを用いたSAR ATRの先進的な深層学習モデルを総合的にベンチマークする。
推論スループットと解析性能の観点から,分類精度のランタイム性能に関する5つの分類器の評価と比較を行った。
SAR ATRの領域では、すべてのモデルルールが疑わしいのです。
論文 参考訳(メタデータ) (2023-12-12T02:20:39Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - LaMAR: Benchmarking Localization and Mapping for Augmented Reality [80.23361950062302]
異種ARデバイスでキャプチャされたリアルな軌跡とセンサストリームを共登録する,包括的キャプチャとGTパイプラインを備えた新しいベンチマークであるLaMARを紹介する。
私たちは、ヘッドマウントとハンドヘルドARデバイスで記録された多様な大規模シーンのベンチマークデータセットを公開します。
論文 参考訳(メタデータ) (2022-10-19T17:58:17Z) - Learning to Simulate Realistic LiDARs [66.7519667383175]
リアルLiDARセンサのデータ駆動シミュレーションのためのパイプラインを提案する。
本モデルでは, 透明表面上の落下点などの現実的な効果を符号化できることが示される。
我々は2つの異なるLiDARセンサのモデルを学習し、それに従ってシミュレーションされたLiDARデータを改善する。
論文 参考訳(メタデータ) (2022-09-22T13:12:54Z) - Self-Supervised RF Signal Representation Learning for NextG Signal
Classification with Deep Learning [5.624291722263331]
自己教師付き学習は、無線周波数(RF)信号自体から有用な表現を学習することを可能にする。
自己教師型学習による信号表現の学習により,AMRのサンプル効率(精度向上に必要なラベル付きサンプル数)を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-07-07T02:07:03Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Automatic Target Recognition on Synthetic Aperture Radar Imagery: A
Survey [0.0]
本稿では,SAR ATRアーキテクチャの分類法と,標準および拡張された運用条件下でのそれぞれの手法の長所と短所の比較を行う。
MSTARは標準的なSAR ATRベンチマークデータセットであるにもかかわらず、弱点を強調し、今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2020-07-04T14:22:30Z) - Taurus: A Data Plane Architecture for Per-Packet ML [59.1343317736213]
本稿では,線数推論のためのデータプレーンであるTaurusの設計と実装について述べる。
Taurus スイッチ ASIC の評価は,Taurus がサーバベースコントロールプレーンよりも桁違いに高速に動作することを示す。
論文 参考訳(メタデータ) (2020-02-12T09:18:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。