論文の概要: From Ground to Air: Noise Robustness in Vision Transformers and CNNs for Event-Based Vehicle Classification with Potential UAV Applications
- arxiv url: http://arxiv.org/abs/2506.22360v1
- Date: Fri, 27 Jun 2025 16:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.282822
- Title: From Ground to Air: Noise Robustness in Vision Transformers and CNNs for Event-Based Vehicle Classification with Potential UAV Applications
- Title(参考訳): 地上から空気へ:UAV応用の可能性を考慮したイベントベース車両分類のための視覚変換器とCNNのノイズロバスト性
- Authors: Nouf Almesafri, Hector Figueiredo, Miguel Arana-Catania,
- Abstract要約: 本研究では、イベントベースカメラにおける2つの最も関連性の高いコンピュータビジョン深層学習アーキテクチャ、畳み込みニューラルネットワークとビジョントランスフォーマーの性能について検討する。
この研究で研究されたディープラーニングモデルは、Gene1イベントベースのデータセットに基づいて微調整されたResNet34とViT B16である。
クリーンなgen1データセットの初期評価では、ResNet34とViT B16はそれぞれ88%と86%のアキュラシーを達成しており、ResNet34は分類精度にわずかに有利である。
- 参考スコア(独自算出の注目度): 0.5917100081691199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the performance of the two most relevant computer vision deep learning architectures, Convolutional Neural Network and Vision Transformer, for event-based cameras. These cameras capture scene changes, unlike traditional frame-based cameras with capture static images, and are particularly suited for dynamic environments such as UAVs and autonomous vehicles. The deep learning models studied in this work are ResNet34 and ViT B16, fine-tuned on the GEN1 event-based dataset. The research evaluates and compares these models under both standard conditions and in the presence of simulated noise. Initial evaluations on the clean GEN1 dataset reveal that ResNet34 and ViT B16 achieve accuracies of 88% and 86%, respectively, with ResNet34 showing a slight advantage in classification accuracy. However, the ViT B16 model demonstrates notable robustness, particularly given its pre-training on a smaller dataset. Although this study focuses on ground-based vehicle classification, the methodologies and findings hold significant promise for adaptation to UAV contexts, including aerial object classification and event-based vision systems for aviation-related tasks.
- Abstract(参考訳): 本研究では、イベントベースカメラにおける2つの最も関連性の高いコンピュータビジョン深層学習アーキテクチャ、畳み込みニューラルネットワークとビジョントランスフォーマーの性能について検討する。
これらのカメラは、静止画像をキャプチャする従来のフレームベースのカメラとは異なり、シーンの変化を捉え、特にUAVや自動運転車のような動的な環境に適している。
この研究で研究されたディープラーニングモデルは、Gene1イベントベースのデータセットに基づいて微調整されたResNet34とViT B16である。
本研究は、これらのモデルについて、標準条件と模擬雑音の有無の両方で評価し、比較する。
クリーンなgen1データセットの初期評価では、ResNet34とViT B16はそれぞれ88%と86%のアキュラシーを達成しており、ResNet34は分類精度にわずかに有利である。
しかし、ViT B16モデルは、特に小さなデータセットで事前トレーニングされていることを考えると、顕著な堅牢性を示している。
本研究は地上型車両の分類に焦点をあてるが, 航空機関連タスクの航空物体分類やイベントベース視覚システムなど, UAV の文脈に適応するための方法論や知見は有意義である。
関連論文リスト
- Fruit Fly Classification (Diptera: Tephritidae) in Images, Applying Transfer Learning [8.700842317740943]
本研究では,2種の果実ハエの自動分類のための移動学習モデルを開発した。
Inception-v3は、Anastrepha fraterculusとCeratitis capitataを分類するための効果的で複製可能なアプローチである。
論文 参考訳(メタデータ) (2025-02-02T22:16:04Z) - DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition [4.678150356894011]
災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。
伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。
視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
論文 参考訳(メタデータ) (2024-10-17T15:25:13Z) - Advancements in Road Lane Mapping: Comparative Fine-Tuning Analysis of Deep Learning-based Semantic Segmentation Methods Using Aerial Imagery [16.522544814241495]
本研究は、自動運転車(AV)のHDマップの必要性に対処するものである。
地球観測データは地図作成に有用な資源を提供するが、道路線抽出のための特別なモデルはまだリモートセンシングでは未開発である。
本研究では,高精細リモートセンシング画像から道路路面マーキング抽出のための基礎的深層学習に基づくセマンティックセマンティックセマンティクスモデルを比較した。
論文 参考訳(メタデータ) (2024-10-08T06:24:15Z) - Onboard Satellite Image Classification for Earth Observation: A Comparative Study of ViT Models [27.34569075172096]
本研究は,衛星データ処理における土地利用分類において,最も効果的な事前学習モデルを特定することに焦点を当てた。
我々は、従来のCNNベース、ResNetベース、および様々な事前学習された視覚変換器モデルの性能を比較した。
特にMobileViTV2とEfficientViT-M2は,スクラッチからトレーニングしたモデルよりも精度と効率が優れていた。
論文 参考訳(メタデータ) (2024-09-05T20:21:49Z) - Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。