論文の概要: DGNN-YOLO: Interpretable Dynamic Graph Neural Networks with YOLO11 for Small Occluded Object Detection and Tracking
- arxiv url: http://arxiv.org/abs/2411.17251v6
- Date: Thu, 20 Feb 2025 20:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 01:45:05.748012
- Title: DGNN-YOLO: Interpretable Dynamic Graph Neural Networks with YOLO11 for Small Occluded Object Detection and Tracking
- Title(参考訳): DGNN-YOLO:小さな物体検出・追跡のためのYOLO11を用いた動的グラフニューラルネットワーク
- Authors: Shahriar Soudeep, M. F. Mridha, Md Abrar Jahin, Nilanjan Dey,
- Abstract要約: 本稿では,動的グラフニューラルネットワーク(DGNN)とYOLO11を統合し,制約に対処する新しいフレームワークであるDGNN-YOLOを紹介する。
標準のGNNとは異なり、DGNNはグラフ構造をリアルタイムで動的に更新する優れた能力のために選択される。
このフレームワークはグラフ表現を構築し、定期的に更新し、ノードとしてオブジェクトをキャプチャし、エッジとして相互作用する。
- 参考スコア(独自算出の注目度): 2.0681376988193843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection and tracking of small, occluded objects such as pedestrians, cyclists, and motorbikes pose significant challenges for traffic surveillance systems because of their erratic movement, frequent occlusion, and poor visibility in dynamic urban environments. Traditional methods like YOLO11, while proficient in spatial feature extraction for precise detection, often struggle with these small and dynamically moving objects, particularly in handling real-time data updates and resource efficiency. This paper introduces DGNN-YOLO, a novel framework that integrates dynamic graph neural networks (DGNNs) with YOLO11 to address these limitations. Unlike standard GNNs, DGNNs are chosen for their superior ability to dynamically update graph structures in real-time, which enables adaptive and robust tracking of objects in highly variable urban traffic scenarios. This framework constructs and regularly updates its graph representations, capturing objects as nodes and their interactions as edges, thus effectively responding to rapidly changing conditions. Additionally, DGNN-YOLO incorporates Grad-CAM, Grad-CAM++, and Eigen-CAM visualization techniques to enhance interpretability and foster trust, offering insights into the model's decision-making process. Extensive experiments validate the framework's performance, achieving a precision of 0.8382, recall of 0.6875, and mAP@0.5:0.95 of 0.6476, significantly outperforming existing methods. This study offers a scalable and interpretable solution for real-time traffic surveillance and significantly advances intelligent transportation systems' capabilities by addressing the critical challenge of detecting and tracking small, occluded objects.
- Abstract(参考訳): 歩行者、サイクリスト、バイクなどの小型で閉鎖された物体の検出と追跡は、その不規則な動き、頻繁な閉塞、動的な都市環境における視界の低下など、交通監視システムに重大な課題をもたらす。
YOLO11のような従来の手法は、正確な検出のために空間的特徴抽出に精通しているが、特にリアルタイムのデータ更新やリソース効率の処理において、これらの小さく動的に動くオブジェクトにしばしば苦労する。
本稿では、動的グラフニューラルネットワーク(DGNN)とYOLO11を統合し、これらの制限に対処する新しいフレームワークであるDGNN-YOLOを紹介する。
標準のGNNとは異なり、DGNNはリアルタイムにグラフ構造を動的に更新する能力に優れており、高度に変動する都市交通シナリオにおけるオブジェクトの適応的かつ堅牢な追跡を可能にする。
このフレームワークはグラフ表現を構築し、定期的に更新し、オブジェクトをノードとして、インタラクションをエッジとしてキャプチャし、急速に変化する条件に効果的に応答する。
さらに、DGNN-YOLOにはGrad-CAM、Grad-CAM++、Eigen-CAM可視化技術が組み込まれており、解釈可能性を高め、信頼を高め、モデルの意思決定プロセスに関する洞察を提供する。
大規模な実験により、フレームワークのパフォーマンスは0.8382、リコールは0.6875、mAP@0.5:0.95、既存の手法よりも大幅に向上した。
本研究は、リアルタイム交通監視のためのスケーラブルで解釈可能なソリューションを提供し、小型で隠蔽された物体を検知・追跡する重要な課題に対処することで、インテリジェント交通システムの能力を大幅に向上させる。
関連論文リスト
- GazeSCRNN: Event-based Near-eye Gaze Tracking using a Spiking Neural Network [0.0]
この研究は、イベントベースの近目視追跡用に設計された新しい畳み込みリカレントニューラルネットワークであるGazeSCRNNを紹介する。
モデル処理は、Adaptive Leaky-Integrate-and-Fire(ALIF)ニューロンと、時間データのためのハイブリッドアーキテクチャを使用して、DVSカメラからのイベントストリームを処理する。
最も正確なモデルは6.034degdegの平均角誤差(MAE)と2.094mmの平均角誤差(MPE)である。
論文 参考訳(メタデータ) (2025-03-20T10:32:15Z) - Virtual Nodes Improve Long-term Traffic Prediction [9.125554921271338]
本研究では,仮想ノードを組み込んだ新しいフレームワークを紹介し,グラフに追加したノードを既存ノードに接続する。
提案モデルでは,セミアダプティブ・アジャシエイト行列を構築し,仮想ノードを組み込んだ。
実験により,仮想ノードの挿入は長期予測精度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-01-17T09:09:01Z) - CREST: An Efficient Conjointly-trained Spike-driven Framework for Event-based Object Detection Exploiting Spatiotemporal Dynamics [7.696109414724968]
スパイキングニューラルネットワーク(SNN)は、イベントベースのオブジェクト認識と検出を約束する。
既存のSNNフレームワークは、多くの場合、マルチスケールの時間的特徴を扱うことができず、データの冗長性が向上し、精度が低下する。
我々は、イベントベースのオブジェクト検出を利用するために、結合的にトレーニングされた新しいスパイク駆動フレームワークであるCRESTを提案する。
論文 参考訳(メタデータ) (2024-12-17T04:33:31Z) - Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。
提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。
完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:14:32Z) - Deep Learning and Hybrid Approaches for Dynamic Scene Analysis, Object Detection and Motion Tracking [0.0]
本研究の目的は,活動の検出に基づいて映像を小さなクリップに分割する,堅牢な映像監視システムを開発することである。
例えば、CCTVの映像を使って、人や泥棒の外観のような主要なイベントのみを記録し、ストレージを最適化し、デジタル検索がより簡単になる。
論文 参考訳(メタデータ) (2024-12-05T07:44:40Z) - 3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。
本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。
このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文 参考訳(メタデータ) (2024-11-13T08:34:07Z) - Improving Traffic Flow Predictions with SGCN-LSTM: A Hybrid Model for Spatial and Temporal Dependencies [55.2480439325792]
本稿ではSGCN-LSTM(Signal-Enhanced Graph Convolutional Network Long Short Term Memory)モデルを提案する。
PEMS-BAYロードネットワークトラフィックデータセットの実験は、SGCN-LSTMモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-11-01T00:37:00Z) - Biologically Inspired Swarm Dynamic Target Tracking and Obstacle Avoidance [0.0]
本研究では、軍用分散ドローン群を用いた動的目標追跡のためのAI駆動飛行コンピュータを提案する。
コントローラはファジィインタフェース、素早い適応、予測能力、マルチエージェント問題解決を可能にするニューラルネットワークを統合する。
論文 参考訳(メタデータ) (2024-10-15T03:47:09Z) - DS MYOLO: A Reliable Object Detector Based on SSMs for Driving Scenarios [2.615648035076649]
我々は,マンバの卓越した性能にインスパイアされた,新しいリアルタイム物体検出器DS MYOLOを提案する。
この検出器は、単純化された選択的走査型融合ブロック(SimVSS Block)を通してグローバルな特徴情報をキャプチャし、ネットワークの深い特徴を効果的に統合する。
CCTSDB 2021とVLD-45の駆動シナリオの実験は、DS MYOLOが大きな可能性と競争上の優位性を示すことを示した。
論文 参考訳(メタデータ) (2024-09-02T09:22:33Z) - OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning Denoising [49.86409475232849]
軌道予測はコンピュータビジョンと自律運転の基本である。
この分野における既存のアプローチは、しばしば正確で完全な観測データを仮定する。
本稿では,視覚的位置決め技術を利用した視線外軌道予測手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T18:30:29Z) - PNAS-MOT: Multi-Modal Object Tracking with Pareto Neural Architecture Search [64.28335667655129]
複数の物体追跡は、自律運転において重要な課題である。
トラッキングの精度が向上するにつれて、ニューラルネットワークはますます複雑になり、レイテンシが高いため、実際の運転シナリオにおける実践的な応用に課題が生じる。
本稿では,ニューラル・アーキテクチャ・サーチ(NAS)手法を用いて追跡のための効率的なアーキテクチャを探索し,比較的高い精度を維持しつつ,低リアルタイム遅延を実現することを目的とした。
論文 参考訳(メタデータ) (2024-03-23T04:18:49Z) - Elastic Interaction Energy-Informed Real-Time Traffic Scene Perception [8.429178814528617]
EIEGSegという名前のトポロジ対応エネルギー損失関数に基づくネットワークトレーニング戦略を提案する。
EIEGSegは、リアルタイムの交通シーン認識におけるマルチクラスセグメンテーションのために設計されている。
以上の結果から,EIEGSegは,特にリアルタイム軽量ネットワークにおいて,性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2023-10-02T01:30:42Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - PDFormer: Propagation Delay-Aware Dynamic Long-Range Transformer for
Traffic Flow Prediction [78.05103666987655]
空間時空間グラフニューラルネットワーク(GNN)モデルは、この問題を解決する最も有望な方法の1つである。
本稿では,交通流の正確な予測を行うために,遅延を意識した動的長距離トランスフォーマー(PDFormer)を提案する。
提案手法は,最先端の性能を達成するだけでなく,計算効率の競争力も発揮できる。
論文 参考訳(メタデータ) (2023-01-19T08:42:40Z) - Neural Motion Fields: Encoding Grasp Trajectories as Implicit Value
Functions [65.84090965167535]
本稿では,ニューラルネットワークによってパラメータ化される暗黙的値関数として,オブジェクト点群と相対的タスク軌跡の両方を符号化する新しいオブジェクト表現であるNeural Motion Fieldsを提案する。
このオブジェクト中心表現は、SE(3)空間上の連続分布をモデル化し、サンプリングベースのMPCを利用して、この値関数を最適化することで、反応的に把握することができる。
論文 参考訳(メタデータ) (2022-06-29T18:47:05Z) - Efficient Federated Learning with Spike Neural Networks for Traffic Sign
Recognition [70.306089187104]
我々は、エネルギー効率と高速モデルトレーニングのための交通信号認識に強力なスパイクニューラルネットワーク(SNN)を導入している。
数値的な結果から,提案するフェデレーションSNNは,従来のフェデレーション畳み込みニューラルネットワークよりも精度,ノイズ免疫性,エネルギー効率に優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-05-28T03:11:48Z) - Spatio-Temporal Look-Ahead Trajectory Prediction using Memory Neural
Network [6.065344547161387]
本論文では,記憶神経ネットワークと呼ばれる新しい繰り返しニューラルネットワークを用いて,時空間的視線軌道予測の問題を解くことを試みる。
提案手法は計算量が少なく,LSTMやGRUを用いた他のディープラーニングモデルと比較すると,単純なアーキテクチャである。
論文 参考訳(メタデータ) (2021-02-24T05:02:19Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。