論文の概要: A2Seek: Towards Reasoning-Centric Benchmark for Aerial Anomaly Understanding
- arxiv url: http://arxiv.org/abs/2505.21962v1
- Date: Wed, 28 May 2025 04:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.413271
- Title: A2Seek: Towards Reasoning-Centric Benchmark for Aerial Anomaly Understanding
- Title(参考訳): A2Seek: 航空異常理解のための推論中心ベンチマークを目指して
- Authors: Mengjingcheng Mo, Xinyang Tong, Jiaxu Leng, Mingpi Tan, Jiankang Zheng, Yiran Liu, Haosheng Chen, Ji Gan, Weisheng Li, Xinbo Gao,
- Abstract要約: A2Seek(Aerial Anomaly Seek)は、航空異常理解のための大規模で推論中心のベンチマークデータセットである。
A2Seek-R1は、R1スタイルの戦略を空中異常理解に一般化する新しい推論フレームワークである。
A2Seek-R1は予測精度が最大22.04%向上し、mIoUは13.9%向上した。
- 参考スコア(独自算出の注目度): 43.22888675978081
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While unmanned aerial vehicles (UAVs) offer wide-area, high-altitude coverage for anomaly detection, they face challenges such as dynamic viewpoints, scale variations, and complex scenes. Existing datasets and methods, mainly designed for fixed ground-level views, struggle to adapt to these conditions, leading to significant performance drops in drone-view scenarios. To bridge this gap, we introduce A2Seek (Aerial Anomaly Seek), a large-scale, reasoning-centric benchmark dataset for aerial anomaly understanding. This dataset covers various scenarios and environmental conditions, providing high-resolution real-world aerial videos with detailed annotations, including anomaly categories, frame-level timestamps, region-level bounding boxes, and natural language explanations for causal reasoning. Building on this dataset, we propose A2Seek-R1, a novel reasoning framework that generalizes R1-style strategies to aerial anomaly understanding, enabling a deeper understanding of "Where" anomalies occur and "Why" they happen in aerial frames. To this end, A2Seek-R1 first employs a graph-of-thought (GoT)-guided supervised fine-tuning approach to activate the model's latent reasoning capabilities on A2Seek. Then, we introduce Aerial Group Relative Policy Optimization (A-GRPO) to design rule-based reward functions tailored to aerial scenarios. Furthermore, we propose a novel "seeking" mechanism that simulates UAV flight behavior by directing the model's attention to informative regions. Extensive experiments demonstrate that A2Seek-R1 achieves up to a 22.04% improvement in AP for prediction accuracy and a 13.9% gain in mIoU for anomaly localization, exhibiting strong generalization across complex environments and out-of-distribution scenarios. Our dataset and code will be released at https://hayneyday.github.io/A2Seek/.
- Abstract(参考訳): 無人航空機(UAV)は、異常検出のための広範囲で高高度のカバレッジを提供するが、ダイナミックな視点、スケールのバリエーション、複雑なシーンといった課題に直面している。
既存のデータセットとメソッドは、主に固定された地上レベルのビューのために設計されており、これらの条件に適応するのに苦労しているため、ドローンビューのシナリオでは大幅にパフォーマンスが低下する。
このギャップを埋めるために、航空異常理解のための大規模で推論中心のベンチマークデータセットであるA2Seek(Aerial Anomaly Seek)を紹介します。
このデータセットは様々なシナリオと環境条件をカバーし、異常カテゴリ、フレームレベルのタイムスタンプ、領域レベルのバウンディングボックス、因果推論のための自然言語説明など、詳細なアノテーションを備えた高精細な現実世界の空中ビデオを提供する。
このデータセットをベースとしたA2Seek-R1は,R1スタイルの戦略を空中異常理解に一般化する新しい推論フレームワークである。
この目的のために、A2Seek-R1はまず、A2Seek上のモデルの潜在推論能力を活性化するために、GoT(Graph-of-thinkt)ガイダンスによる微調整アプローチを採用する。
次に,A-GRPO(Aerial Group Relative Policy Optimization)を導入し,航空シナリオに適したルールベースの報酬関数を設計する。
さらに,本研究では,UAV飛行行動のシミュレートを行う新しい「探索」機構を提案する。
大規模な実験により、A2Seek-R1は予測精度が最大22.04%向上し、mIoUが13.9%向上し、複雑な環境にまたがる強力な一般化とアウト・オブ・ディストリビューションのシナリオが示された。
データセットとコードはhttps://hayneyday.github.io/A2Seek/.com/で公開されます。
関連論文リスト
- Towards Anomaly-Aware Pre-Training and Fine-Tuning for Graph Anomaly Detection [59.042018542376596]
グラフ異常検出(GAD)は近年注目度が高まりつつあるが、2つの重要な要因があるため、依然として困難である。
Anomaly-Aware Pre-Training and Fine-Tuning (APF)は、GADの課題を軽減するためのフレームワークである。
10のベンチマークデータセットに関する総合的な実験は、最先端のベースラインと比較してAPFの優れたパフォーマンスを検証する。
論文 参考訳(メタデータ) (2025-04-19T09:57:35Z) - View-Invariant Pixelwise Anomaly Detection in Multi-object Scenes with Adaptive View Synthesis [0.0]
我々は、教師なし、画素ワイドな異常位置検出のタスクとして、シーン異常検出(Scene Anomaly Detection, Scene AD)を導入し、フォーマル化する。
ToyCityは,最初のマルチオブジェクト・マルチビューリアルタイム画像データセットである。
実験の結果,OmniADは拡張ビューで使用すると,逆蒸留よりも64.33%の画素幅(F_1)のスコアが増大することがわかった。
論文 参考訳(メタデータ) (2024-06-26T01:54:10Z) - ARC: A Generalist Graph Anomaly Detector with In-Context Learning [62.202323209244]
ARCは汎用的なGADアプローチであり、一対一のGADモデルで様々なグラフデータセットの異常を検出することができる。
ARCはコンテキスト内学習を備えており、ターゲットデータセットからデータセット固有のパターンを直接抽出することができる。
各種領域からの複数のベンチマークデータセットに対する大規模な実験は、ARCの優れた異常検出性能、効率、一般化性を示す。
論文 参考訳(メタデータ) (2024-05-27T02:42:33Z) - Implicit neural representation for change detection [15.741202788959075]
点雲の変化を検出する最も一般的なアプローチは、教師付き手法に基づいている。
Inlicit Neural Representation (INR) for continuous shape reconstruction と Gaussian Mixture Model for categorising change の2つのコンポーネントからなる教師なしアプローチを提案する。
本手法を都市スプロールのためのシミュレーションLiDAR点雲からなるベンチマークデータセットに適用する。
論文 参考訳(メタデータ) (2023-07-28T09:26:00Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle
Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。
ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。
2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文 参考訳(メタデータ) (2021-03-11T01:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。