Fugu-MT 論文翻訳(概要): A2Seek: Towards Reasoning-Centric Benchmark for Aerial Anomaly Understanding

論文の概要: A2Seek: Towards Reasoning-Centric Benchmark for Aerial Anomaly Understanding

arxiv url: http://arxiv.org/abs/2505.21962v1
Date: Wed, 28 May 2025 04:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.413271
Title: A2Seek: Towards Reasoning-Centric Benchmark for Aerial Anomaly Understanding
Title（参考訳）: A2Seek: 航空異常理解のための推論中心ベンチマークを目指して
Authors: Mengjingcheng Mo, Xinyang Tong, Jiaxu Leng, Mingpi Tan, Jiankang Zheng, Yiran Liu, Haosheng Chen, Ji Gan, Weisheng Li, Xinbo Gao,
Abstract要約: A2Seek(Aerial Anomaly Seek)は、航空異常理解のための大規模で推論中心のベンチマークデータセットである。 A2Seek-R1は、R1スタイルの戦略を空中異常理解に一般化する新しい推論フレームワークである。 A2Seek-R1は予測精度が最大22.04%向上し、mIoUは13.9%向上した。
参考スコア（独自算出の注目度）: 43.22888675978081
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While unmanned aerial vehicles (UAVs) offer wide-area, high-altitude coverage for anomaly detection, they face challenges such as dynamic viewpoints, scale variations, and complex scenes. Existing datasets and methods, mainly designed for fixed ground-level views, struggle to adapt to these conditions, leading to significant performance drops in drone-view scenarios. To bridge this gap, we introduce A2Seek (Aerial Anomaly Seek), a large-scale, reasoning-centric benchmark dataset for aerial anomaly understanding. This dataset covers various scenarios and environmental conditions, providing high-resolution real-world aerial videos with detailed annotations, including anomaly categories, frame-level timestamps, region-level bounding boxes, and natural language explanations for causal reasoning. Building on this dataset, we propose A2Seek-R1, a novel reasoning framework that generalizes R1-style strategies to aerial anomaly understanding, enabling a deeper understanding of "Where" anomalies occur and "Why" they happen in aerial frames. To this end, A2Seek-R1 first employs a graph-of-thought (GoT)-guided supervised fine-tuning approach to activate the model's latent reasoning capabilities on A2Seek. Then, we introduce Aerial Group Relative Policy Optimization (A-GRPO) to design rule-based reward functions tailored to aerial scenarios. Furthermore, we propose a novel "seeking" mechanism that simulates UAV flight behavior by directing the model's attention to informative regions. Extensive experiments demonstrate that A2Seek-R1 achieves up to a 22.04% improvement in AP for prediction accuracy and a 13.9% gain in mIoU for anomaly localization, exhibiting strong generalization across complex environments and out-of-distribution scenarios. Our dataset and code will be released at https://hayneyday.github.io/A2Seek/.
Abstract（参考訳）: 無人航空機(UAV)は、異常検出のための広範囲で高高度のカバレッジを提供するが、ダイナミックな視点、スケールのバリエーション、複雑なシーンといった課題に直面している。既存のデータセットとメソッドは、主に固定された地上レベルのビューのために設計されており、これらの条件に適応するのに苦労しているため、ドローンビューのシナリオでは大幅にパフォーマンスが低下する。このギャップを埋めるために、航空異常理解のための大規模で推論中心のベンチマークデータセットであるA2Seek(Aerial Anomaly Seek)を紹介します。このデータセットは様々なシナリオと環境条件をカバーし、異常カテゴリ、フレームレベルのタイムスタンプ、領域レベルのバウンディングボックス、因果推論のための自然言語説明など、詳細なアノテーションを備えた高精細な現実世界の空中ビデオを提供する。このデータセットをベースとしたA2Seek-R1は,R1スタイルの戦略を空中異常理解に一般化する新しい推論フレームワークである。この目的のために、A2Seek-R1はまず、A2Seek上のモデルの潜在推論能力を活性化するために、GoT(Graph-of-thinkt)ガイダンスによる微調整アプローチを採用する。次に,A-GRPO(Aerial Group Relative Policy Optimization)を導入し,航空シナリオに適したルールベースの報酬関数を設計する。さらに,本研究では,UAV飛行行動のシミュレートを行う新しい「探索」機構を提案する。大規模な実験により、A2Seek-R1は予測精度が最大22.04%向上し、mIoUが13.9%向上し、複雑な環境にまたがる強力な一般化とアウト・オブ・ディストリビューションのシナリオが示された。データセットとコードはhttps://hayneyday.github.io/A2Seek/.com/で公開されます。

関連論文リスト

VAU-R1: Advancing Video Anomaly Understanding via Reinforcement Fine-Tuning [12.293826084601115]
スマートシティ、セキュリティ監視、災害警報システムには、ビデオの異常理解が不可欠である。異常検出の進歩にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果的・文脈的側面を捉えるのに苦労することが多い。マルチモーダル大言語モデル(MLLM)上に構築されたデータ効率のよいフレームワークVAU-R1を導入し,RFT(Reinforcement Fine-Tuning)による異常推論を強化する。
論文参考訳（メタデータ） (2025-05-29T14:48:10Z)
Towards Anomaly-Aware Pre-Training and Fine-Tuning for Graph Anomaly Detection [59.042018542376596]
グラフ異常検出(GAD)は近年注目度が高まりつつあるが、2つの重要な要因があるため、依然として困難である。 Anomaly-Aware Pre-Training and Fine-Tuning (APF)は、GADの課題を軽減するためのフレームワークである。 10のベンチマークデータセットに関する総合的な実験は、最先端のベースラインと比較してAPFの優れたパフォーマンスを検証する。
論文参考訳（メタデータ） (2025-04-19T09:57:35Z)
View-Invariant Pixelwise Anomaly Detection in Multi-object Scenes with Adaptive View Synthesis [0.0]
我々は、教師なし、画素ワイドな異常位置検出のタスクとして、シーン異常検出(Scene Anomaly Detection, Scene AD)を導入し、フォーマル化する。 ToyCityは,最初のマルチオブジェクト・マルチビューリアルタイム画像データセットである。実験の結果,OmniADは拡張ビューで使用すると,逆蒸留よりも64.33%の画素幅(F_1)のスコアが増大することがわかった。
論文参考訳（メタデータ） (2024-06-26T01:54:10Z)
ARC: A Generalist Graph Anomaly Detector with In-Context Learning [62.202323209244]
ARCは汎用的なGADアプローチであり、一対一のGADモデルで様々なグラフデータセットの異常を検出することができる。 ARCはコンテキスト内学習を備えており、ターゲットデータセットからデータセット固有のパターンを直接抽出することができる。各種領域からの複数のベンチマークデータセットに対する大規模な実験は、ARCの優れた異常検出性能、効率、一般化性を示す。
論文参考訳（メタデータ） (2024-05-27T02:42:33Z)
TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文参考訳（メタデータ） (2024-05-04T21:55:33Z)
Beyond the Benchmark: Detecting Diverse Anomalies in Videos [0.6993026261767287]
ビデオ異常検出(VAD)は、現代の監視システムにおいて重要な役割を担い、現実の状況における様々な異常を識別することを目的としている。現在のベンチマークデータセットは、新しいオブジェクト検出のような単純な単一フレームの異常を主に強調している。我々は,従来のベンチマーク境界を超える複雑な異常を包含するVAD調査の拡大を提唱する。
論文参考訳（メタデータ） (2023-10-03T09:22:06Z)
Implicit neural representation for change detection [15.741202788959075]
点雲の変化を検出する最も一般的なアプローチは、教師付き手法に基づいている。 Inlicit Neural Representation (INR) for continuous shape reconstruction と Gaussian Mixture Model for categorising change の2つのコンポーネントからなる教師なしアプローチを提案する。本手法を都市スプロールのためのシミュレーションLiDAR点雲からなるベンチマークデータセットに適用する。
論文参考訳（メタデータ） (2023-07-28T09:26:00Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
Rethinking Drone-Based Search and Rescue with Aerial Person Detection [79.76669658740902]
航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。本稿では,この空中人物検出(APD)タスクを自動化するための新しいディープラーニングアルゴリズムを提案する。本稿では,Aerial Inspection RetinaNet (AIR) アルゴリズムについて述べる。
論文参考訳（メタデータ） (2021-11-17T21:48:31Z)
A Vision Based Deep Reinforcement Learning Algorithm for UAV Obstacle Avoidance [1.2693545159861856]
UAV障害物回避のための探索を改善するための2つの技術を紹介します。ひとつは収束に基づくアプローチで、探索されていない動作と時間しきい値を反復して探索と搾取のバランスをとる。 2つ目は、ガウス混合分布を用いて予測された次の状態と比較し、次のアクションを選択するためのガイダンスベースアプローチである。
論文参考訳（メタデータ） (2021-03-11T01:15:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。