論文の概要: RGB-Event Fusion with Self-Attention for Collision Prediction
- arxiv url: http://arxiv.org/abs/2505.04258v1
- Date: Wed, 07 May 2025 09:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.020252
- Title: RGB-Event Fusion with Self-Attention for Collision Prediction
- Title(参考訳): 衝突予測のための自己注意型RGBイベント融合
- Authors: Pietro Bonazzi, Christian Vogt, Michael Jost, Haotong Qin, Lyes Khacef, Federico Paredes-Valles, Michele Magno,
- Abstract要約: 本稿では,動的物体を持つ無人航空機の時間と衝突位置を予測するニューラルネットワークフレームワークを提案する。
提案したアーキテクチャは、2つの異なるエンコーダ分岐で構成されており、1つはモダリティ、次に自己アテンションによる融合により予測精度が向上する。
核融合モデルでは, 平均で1%, 0.5mを超える距離で10%の精度で予測精度が向上するが, メモリで+71%, FLOPで+105%のコストがかかることがわかった。
- 参考スコア(独自算出の注目度): 9.268995547414777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring robust and real-time obstacle avoidance is critical for the safe operation of autonomous robots in dynamic, real-world environments. This paper proposes a neural network framework for predicting the time and collision position of an unmanned aerial vehicle with a dynamic object, using RGB and event-based vision sensors. The proposed architecture consists of two separate encoder branches, one for each modality, followed by fusion by self-attention to improve prediction accuracy. To facilitate benchmarking, we leverage the ABCD [8] dataset collected that enables detailed comparisons of single-modality and fusion-based approaches. At the same prediction throughput of 50Hz, the experimental results show that the fusion-based model offers an improvement in prediction accuracy over single-modality approaches of 1% on average and 10% for distances beyond 0.5m, but comes at the cost of +71% in memory and + 105% in FLOPs. Notably, the event-based model outperforms the RGB model by 4% for position and 26% for time error at a similar computational cost, making it a competitive alternative. Additionally, we evaluate quantized versions of the event-based models, applying 1- to 8-bit quantization to assess the trade-offs between predictive performance and computational efficiency. These findings highlight the trade-offs of multi-modal perception using RGB and event-based cameras in robotic applications.
- Abstract(参考訳): 動的で実環境における自律ロボットの安全な操作には、堅牢でリアルタイムな障害物回避の確保が不可欠である。
本稿では、RGBとイベントベース視覚センサを用いて、動的物体を持つ無人航空機の時間と衝突位置を予測するニューラルネットワークフレームワークを提案する。
提案したアーキテクチャは、2つの異なるエンコーダ分岐で構成されており、1つはモダリティ、次に自己アテンションによる融合により予測精度が向上する。
ベンチマークを容易にするため,ABCD[8]データセットを用いて,単一モダリティと核融合に基づくアプローチの詳細な比較を行う。
同じ50Hzの予測スループットでは、核融合モデルにより、平均で1%、0.5mを超える距離で10%の単モードアプローチよりも精度が向上するが、メモリでは+71%、FLOPでは+105%のコストがかかる。
特に、イベントベースのモデルは、同じ計算コストでRGBモデルを4%、時間エラーを26%上回り、競争力のある代替品となる。
さらに、予測性能と計算効率のトレードオフを評価するために、1ビットから8ビットの量子化を適用し、イベントベースモデルの量子化バージョンを評価する。
これらの結果は、ロボットアプリケーションにおけるRGBとイベントベースカメラを用いたマルチモーダル認識のトレードオフを浮き彫りにした。
関連論文リスト
- Towards Low-Latency Event-based Obstacle Avoidance on a FPGA-Drone [6.515830463304737]
本研究は,FPGA加速器における衝突回避行動予測のための従来のRGBモデルに対して,イベントベースビジョンシステム(EVS)の性能を定量的に評価する。
EVSモデルは、RGBモデルと比較して、はるかに高い有効フレームレート(1kHz)、低時間時間(-20ms)、空間予測誤差(-20mm)を達成する。
これらの結果は、リアルタイム衝突回避のためのイベントベースのビジョンの利点を浮き彫りにして、リソース制約のある環境に展開する可能性を示している。
論文 参考訳(メタデータ) (2025-04-14T16:51:10Z) - Trajectory Mamba: Efficient Attention-Mamba Forecasting Model Based on Selective SSM [16.532357621144342]
本稿では、選択状態空間モデル(SSM)に基づく新しい効率的な軌道予測フレームワークであるTrajectory Mambaを紹介する。
注意機構の変更による予測精度の潜在的な低減に対処するため,共同ポリリン符号化戦略を提案する。
本モデルでは,Argoverse 1 と Argoverse 2 の両方のデータセットにおける推定速度とパラメータ効率の両面から,最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-03-13T21:31:12Z) - A Predictive Approach for Enhancing Accuracy in Remote Robotic Surgery Using Informer Model [0.0]
本稿では,TransformerベースのInformerフレームワークをベースとした位置推定モデルを提案する。
TCN, RNN, LSTMなどのモデルとの比較では, 位置予測処理におけるInformerフレームワークの優れた性能が示されている。
論文 参考訳(メタデータ) (2025-01-24T17:57:00Z) - A Recurrent YOLOv8-based framework for Event-Based Object Detection [4.866548300593921]
本研究では、時間的モデリング機能を備えたフレームベース検出システムを強化する高度なオブジェクト検出フレームワークであるReYOLOv8を紹介する。
イベントデータを符号化する低レイテンシでメモリ効率の手法を実装し,システムの性能を向上する。
また、イベントデータのユニークな属性を利用するように調整された新しいデータ拡張手法を開発し、検出精度を向上した。
論文 参考訳(メタデータ) (2024-08-09T20:00:16Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - RGB-Event Fusion for Moving Object Detection in Autonomous Driving [3.5397758597664306]
移動物体検出(MOD)は安全な自動運転を実現するための重要な視覚課題である。
センサ技術の最近の進歩、特にイベントカメラは、移動物体をより良くモデル化するための従来のカメラアプローチを自然に補完することができる。
我々は、より堅牢なMODを実現するために、2つの相補的モダリティを共同で活用する新しいRGB-Event fusion NetworkであるRENetを提案する。
論文 参考訳(メタデータ) (2022-09-17T12:59:08Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。