Fugu-MT 論文翻訳(概要): Towards Low-Latency Event-based Obstacle Avoidance on a FPGA-Drone

論文の概要: Towards Low-Latency Event-based Obstacle Avoidance on a FPGA-Drone

arxiv url: http://arxiv.org/abs/2504.10400v1
Date: Mon, 14 Apr 2025 16:51:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 17:40:34.49555
Title: Towards Low-Latency Event-based Obstacle Avoidance on a FPGA-Drone
Title（参考訳）: FPGA-Droneにおける低レイテンシイベントベース障害物回避に向けて
Authors: Pietro Bonazzi, Christian Vogt, Michael Jost, Lyes Khacef, Federico Paredes-Vallés, Michele Magno,
Abstract要約: 本研究は,FPGA加速器における衝突回避行動予測のための従来のRGBモデルに対して,イベントベースビジョンシステム(EVS)の性能を定量的に評価する。 EVSモデルは、RGBモデルと比較して、はるかに高い有効フレームレート(1kHz)、低時間時間(-20ms)、空間予測誤差(-20mm)を達成する。これらの結果は、リアルタイム衝突回避のためのイベントベースのビジョンの利点を浮き彫りにして、リソース制約のある環境に展開する可能性を示している。
参考スコア（独自算出の注目度）: 6.515830463304737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work quantitatively evaluates the performance of event-based vision systems (EVS) against conventional RGB-based models for action prediction in collision avoidance on an FPGA accelerator. Our experiments demonstrate that the EVS model achieves a significantly higher effective frame rate (1 kHz) and lower temporal (-20 ms) and spatial prediction errors (-20 mm) compared to the RGB-based model, particularly when tested on out-of-distribution data. The EVS model also exhibits superior robustness in selecting optimal evasion maneuvers. In particular, in distinguishing between movement and stationary states, it achieves a 59 percentage point advantage in precision (78% vs. 19%) and a substantially higher F1 score (0.73 vs. 0.06), highlighting the susceptibility of the RGB model to overfitting. Further analysis in different combinations of spatial classes confirms the consistent performance of the EVS model in both test data sets. Finally, we evaluated the system end-to-end and achieved a latency of approximately 2.14 ms, with event aggregation (1 ms) and inference on the processing unit (0.94 ms) accounting for the largest components. These results underscore the advantages of event-based vision for real-time collision avoidance and demonstrate its potential for deployment in resource-constrained environments.
Abstract（参考訳）: 本研究は,FPGA加速器における衝突回避行動予測のための従来のRGBモデルに対して,イベントベースビジョンシステム(EVS)の性能を定量的に評価する。実験により, EVS モデルでは, RGB モデルと比較して, フレームレート (1 kHz) と時間差 (-20 ms) と空間予測誤差 (-20 mm) が有意に高いことがわかった。 EVSモデルはまた、最適な回避操作を選択する際に優れた堅牢性を示す。特に、運動状態と定常状態の区別において、59パーセントの精度(78%対19%)とF1スコア(0.73対0.06)を達成し、RGBモデルの過剰適合に対する感受性を強調している。空間クラスの異なる組み合わせにおけるさらなる分析は、両方のテストデータセットにおいて、ESVモデルの一貫した性能を確認する。最後に,システムエンド・ツー・エンドの評価を行い,イベントアグリゲーション (1ms) と処理ユニット (0.94ms) を最大成分として,約2.14msのレイテンシを実現した。これらの結果は、リアルタイム衝突回避のためのイベントベースのビジョンの利点を浮き彫りにして、リソース制約のある環境に展開する可能性を示している。

関連論文リスト

Variational Supervised Contrastive Learning [50.79938854370321]
本稿では,教師付きコントラスト学習を潜在クラス変数に対する変分推論として再構成した変分教師付きコントラスト学習(VarCon)を提案する。 VarConは対照的な学習フレームワークの最先端のパフォーマンスを達成し、ImageNet-1Kでは79.36%、CIFAR-100では78.29%、ResNet-50エンコーダでは78.29%に達した。
論文参考訳（メタデータ） (2025-06-09T04:19:12Z)
RGB-Event Fusion with Self-Attention for Collision Prediction [9.268995547414777]
本稿では,動的物体を持つ無人航空機の時間と衝突位置を予測するニューラルネットワークフレームワークを提案する。提案したアーキテクチャは、2つの異なるエンコーダ分岐で構成されており、1つはモダリティ、次に自己アテンションによる融合により予測精度が向上する。核融合モデルでは, 平均で1%, 0.5mを超える距離で10%の精度で予測精度が向上するが, メモリで+71%, FLOPで+105%のコストがかかることがわかった。
論文参考訳（メタデータ） (2025-05-07T09:03:26Z)
HGO-YOLO: Advancing Anomaly Behavior Detection with Hierarchical Features and Lightweight Optimized Detection [0.0]
本研究では,HGNetv2アーキテクチャをYOLOv8に統合したHGO-YOLOを提案する。評価の結果,提案アルゴリズムはmAP@0.5の87.4%,リコールレート81.1%,モデルサイズは4.6MB,フレームレート56FPSであることがわかった。
論文参考訳（メタデータ） (2025-03-10T14:29:12Z)
YOLOv12: A Breakdown of the Key Architectural Features [0.5639904484784127]
YOLOv12は、単一ステージのリアルタイム物体検出において重要な進歩である。最適化されたバックボーン(R-ELAN)、分離可能な7x7の畳み込み、およびFlashAttention駆動のエリアベースアテンションが組み込まれている。レイテンシに敏感なアプリケーションと高精度なアプリケーションの両方にスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-02-20T17:08:43Z)
Fall Detection for Industrial Setups Using YOLOv8 Variants [0.0]
25.9百万のパラメータと79.1のGFLOPからなるYOLOv8mモデルでは、計算効率と検出性能のバランスが良好であった。 YOLOv8l と YOLOv8x モデルでは精度とリコールが向上したが、その高い計算要求とモデルサイズによりリソース制約のある環境には適さない。
論文参考訳（メタデータ） (2024-08-08T17:24:54Z)
Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。我々は「確率共鳴」にインスパイアされた無訓練法を提案する。結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文参考訳（メタデータ） (2023-10-06T01:53:27Z)
Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。 1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文参考訳（メタデータ） (2022-05-27T11:13:17Z)
From Environmental Sound Representation to Robustness of 2D CNN Models Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。 DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文参考訳（メタデータ） (2022-04-14T15:14:08Z)
ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文参考訳（メタデータ） (2021-10-10T09:35:15Z)
How to Train Your Flare Prediction Model: Revisiting Robust Sampling of Rare Events [0.9851812512860351]
本稿では,メタデータの特徴時系列による太陽フレア予測のケーススタディとして,顕著なクラス不均衡と時間的コヒーレントな問題として扱う。時系列予測における連続性の要求によって引き起こされる時間的コヒーレンスの概念を概観し、この効果の適切な理解の欠如がモデルの性能を飛躍的に向上させることを示した。これらの課題に対する主要な改善策を再考し、これらの改善がパフォーマンスに与える影響を正確に示すいくつかの実験を示す。
論文参考訳（メタデータ） (2021-03-12T21:37:08Z)
From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。 3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-07-27T17:30:49Z)
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。 RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文参考訳（メタデータ） (2020-04-22T19:08:33Z)
GraphTCN: Spatio-Temporal Interaction Modeling for Human Trajectory Prediction [5.346782918364054]
我々は,より効率的かつ正確な軌道予測を支援するために,新しいCNNベースの時空間グラフフレームワークGraphCNTを提案する。従来のモデルとは対照的に,我々のモデルにおける空間的・時間的モデリングは各局所時間ウィンドウ内で計算される。本モデルは,様々な軌道予測ベンチマークデータセットの最先端モデルと比較して,効率と精度の両面で優れた性能を実現する。
論文参考訳（メタデータ） (2020-03-16T12:56:12Z)
Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-03-12T07:00:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。