論文の概要: UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark
- arxiv url: http://arxiv.org/abs/2603.10722v1
- Date: Wed, 11 Mar 2026 12:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.948587
- Title: UAV traffic scene understanding: A cross-spectral guided approach and a unified benchmark
- Title(参考訳): UAVトラフィックシーン理解:クロススペクトルガイドアプローチと統一ベンチマーク
- Authors: Yu Zhang, Zhicheng Zhao, Ze Luo, Chenglong Li, Jin Tang,
- Abstract要約: 無人航空機プラットフォームからの交通状況の理解は、インテリジェントな輸送システムにとって不可欠である。
既存の手法は、光学画像に大きく依存しているため、現実世界の監視において重大な課題に直面している。
高速なUAV交通シーン理解のための新しいクロススペクトル交通認知ネットワーク(CTCNet)を提案する。
- 参考スコア(独自算出の注目度): 22.241798167957214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traffic scene understanding from unmanned aerial vehicle (UAV) platforms is crucial for intelligent transportation systems due to its flexible deployment and wide-area monitoring capabilities. However, existing methods face significant challenges in real-world surveillance, as their heavy reliance on optical imagery leads to severe performance degradation under adverse illumination conditions like nighttime and fog. Furthermore, current Visual Question Answering (VQA) models are restricted to elementary perception tasks, lacking the domain-specific regulatory knowledge required to assess complex traffic behaviors. To address these limitations, we propose a novel Cross-spectral Traffic Cognition Network (CTCNet) for robust UAV traffic scene understanding. Specifically, we design a Prototype-Guided Knowledge Embedding (PGKE) module that leverages high-level semantic prototypes from an external Traffic Regulation Memory (TRM) to anchor domain-specific knowledge into visual representations, enabling the model to comprehend complex behaviors and distinguish fine-grained traffic violations. Moreover, we develop a Quality-Aware Spectral Compensation (QASC) module that exploits the complementary characteristics of optical and thermal modalities to perform bidirectional context exchange, effectively compensating for degraded features to ensure robust representation in complex environments. In addition, we construct Traffic-VQA, the first large-scale optical-thermal infrared benchmark for cognitive UAV traffic understanding, comprising 8,180 aligned image pairs and 1.3 million question-answer pairs across 31 diverse types. Extensive experiments demonstrate that CTCNet significantly outperforms state-of-the-art methods in both cognition and perception scenarios. The dataset is available at https://github.com/YuZhang-2004/UAV-traffic-scene-understanding.
- Abstract(参考訳): 無人航空機(UAV)プラットフォームからの交通状況の理解は、柔軟な展開と広域監視能力のため、インテリジェントな輸送システムにとって不可欠である。
しかし、既存の手法は、夜間や霧などの悪照明条件下で光学画像に大きく依存しているため、現実世界の監視において重大な課題に直面している。
さらに、現在の視覚質問応答(VQA)モデルは、複雑な交通行動を評価するために必要なドメイン固有の規制知識が欠如しているため、基本的な知覚タスクに限定されている。
これらの制約に対処するために, 堅牢なUAVトラフィックシーン理解のためのクロススペクトル交通認知ネットワーク (CTCNet) を提案する。
具体的には、外部トラフィックレギュレーションメモリ(TRM)から高レベルなセマンティックプロトタイプを活用するPGKE(Prototype-Guided Knowledge Embedding)モジュールを設計し、ドメイン固有の知識を視覚表現に固定し、複雑な振る舞いを理解し、きめ細かいトラフィック違反を識別することを可能にする。
さらに、光・熱モードの相補的特性を利用して双方向のコンテキスト交換を行い、劣化した特徴を効果的に補償し、複雑な環境におけるロバストな表現を確保するQASCモジュールを開発した。
さらに,認知的UAVトラフィック理解のための,最初の大規模光熱赤外ベンチマークであるTraffic-VQAを構築した。
大規模な実験により、CTCNetは認知と知覚の両方のシナリオにおいて最先端の手法を著しく上回っていることが示された。
データセットはhttps://github.com/YuZhang-2004/UAV-traffic-scene-understandingで公開されている。
関連論文リスト
- Surveillance Video-Based Traffic Accident Detection Using Transformer Architecture [2.621034368312571]
交通事故は、人口増加、都市化、自動車化による死亡率の増加により、世界的死亡率の主要な原因となっている。
事故検出のための伝統的なコンピュータ手法は、限られた理解と貧弱なクロスドメインの一般化を伴う。
本研究では,事前抽出した空間映像特徴を用いた変圧器アーキテクチャに基づく事故検出モデルを提案する。
論文 参考訳(メタデータ) (2025-12-12T07:57:36Z) - RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System [15.222742182076459]
RoadSceneVQAは、ロードサイドシナリオに特化した、大規模な視覚的質問応答データセットである。
データセットは、様々な天候、照明、交通条件の下で収集された34,736種類のQAペアで構成されている。
RoadSceneVQAは、明示的な認識と暗黙的な常識推論の両方を実行するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-11-23T04:40:50Z) - FlowXpert: Context-Aware Flow Embedding for Enhanced Traffic Detection in IoT Network [7.30584204219718]
IoT(Internet of Things)環境では、多数のデバイス間の継続的なインタラクションによって複雑な動的ネットワークトラフィックが生成される。
機械学習(ML)ベースのトラフィック検出技術は、ネットワークセキュリティを確保する上で重要なコンポーネントである。
論文 参考訳(メタデータ) (2025-09-25T07:52:58Z) - Traffic-MLLM: A Spatio-Temporal MLLM with Retrieval-Augmented Generation for Causal Inference in Traffic [8.754321713184483]
本稿では,詳細なトラフィック解析に適した多モーダル大規模言語モデルであるTraffic-LMを提案する。
我々のモデルは、高品質な交通特化マルチモーダルデータセットを活用し、軽量な微調整にLowRanktemporal Adaptation (LoRA) を用いる。
また、検索ロッドジェネレーション(LoRAG)による最先端推論を融合した革新的な知識モジュールも導入する。
論文 参考訳(メタデータ) (2025-09-14T08:53:06Z) - Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision [2.0720154517628417]
オープン語彙検出とクロスモーダル学習を組み合わせた新しいフレームワークを提案する。
交通信号検出のために,NanoVerse YOLOモデルは視覚言語パス集約ネットワーク(RepVL-PAN)とSPD-Convモジュールを統合している。
交通標識分類のための交通信号認識マルチモーダルコントラスト学習モデル(TSR-MCL)を設計した。
TT100Kデータセットでは,全クラス認識のためのロングテール検出タスクにおいて,最先端の78.4%mAPを実現する。
論文 参考訳(メタデータ) (2025-07-31T08:23:30Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - A Holistic Framework Towards Vision-based Traffic Signal Control with
Microscopic Simulation [53.39174966020085]
交通信号制御(TSC)は交通渋滞を低減し、交通の流れを円滑にし、アイドリング時間を短縮し、CO2排出量を減らすために重要である。
本研究では,道路交通の流れを視覚的観察によって調節するTSCのコンピュータビジョンアプローチについて検討する。
我々は、視覚ベースのTSCとそのベンチマークに向けて、TrafficDojoと呼ばれる総合的なトラフィックシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-11T16:42:29Z) - OpenLane-V2: A Topology Reasoning Benchmark for Unified 3D HD Mapping [84.65114565766596]
交通シーン構造を考慮したトポロジ推論のための最初のデータセットであるOpenLane-V2を提案する。
OpenLane-V2は2000のアノテートされた道路シーンで構成され、交通要素と車線との関係を記述している。
様々な最先端手法を評価し,OpenLane-V2の定量的,定性的な結果を示し,交通現場におけるトポロジ推論の今後の道筋を示す。
論文 参考訳(メタデータ) (2023-04-20T16:31:22Z) - Road Network Guided Fine-Grained Urban Traffic Flow Inference [108.64631590347352]
粗いトラフィックからのきめ細かなトラフィックフローの正確な推測は、新たな重要な問題である。
本稿では,道路ネットワークの知識を活かした新しい道路対応交通流磁化器(RATFM)を提案する。
提案手法は,高品質なトラフィックフローマップを作成できる。
論文 参考訳(メタデータ) (2021-09-29T07:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。