論文の概要: Beyond the Horizon: Decoupling Multi-View UAV Action Recognition via Partial Order Transfer
- arxiv url: http://arxiv.org/abs/2504.20530v2
- Date: Tue, 19 Aug 2025 03:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.475579
- Title: Beyond the Horizon: Decoupling Multi-View UAV Action Recognition via Partial Order Transfer
- Title(参考訳): 水平を超えて:部分順序移動による多視点UAV行動認識の分離
- Authors: Wenxuan Liu, Zhuo Zhou, Xuemei Jia, Siyuan Yang, Wenxin Huang, Xian Zhong, Chia-Wen Lin,
- Abstract要約: 無人航空機(UAV)における行動認識は、垂直の空間軸に沿った視界の変化によって、ユニークな課題を生んでいる。
高度の変化に合わせて調整された多視点定式化を導入し,高度の増加とともに認識精度が一貫して低下するビュー間の部分的な順序を経験的に観察する。
本稿では,高度の異なる地点における視線依存情報を効果的に活用することにより,劇的な視線変動に対処する部分順序案内型多視点ネットワーク(POG-MVNet)を提案する。
- 参考スコア(独自算出の注目度): 40.02916765848461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition in unmanned aerial vehicles (UAVs) poses unique challenges due to significant view variations along the vertical spatial axis. Unlike traditional ground-based settings, UAVs capture actions at a wide range of altitudes, resulting in considerable appearance discrepancies. We introduce a multi-view formulation tailored to varying UAV altitudes and empirically observe a partial order among views, where recognition accuracy consistently decreases as altitude increases. This observation motivates a novel approach that explicitly models the hierarchical structure of UAV views to improve recognition performance across altitudes. To this end, we propose the Partial Order Guided Multi-View Network (POG-MVNet), designed to address drastic view variations by effectively leveraging view-dependent information across different altitude levels. The framework comprises three key components: a View Partition (VP) module, which uses the head-to-body ratio to group views by altitude; an Order-aware Feature Decoupling (OFD) module, which disentangles action-relevant and view-specific features under partial order guidance; and an Action Partial Order Guide (APOG), which uses the partial order to transfer informative knowledge from easier views to more challenging ones. We conduct experiments on Drone-Action, MOD20, and UAV, demonstrating that POG-MVNet significantly outperforms competing methods. For example, POG-MVNet achieves a 4.7% improvement on Drone-Action and a 3.5% improvement on UAV compared to state-of-the-art methods ASAT and FAR. Code will be released soon.
- Abstract(参考訳): 無人航空機(UAV)における行動認識は、垂直空間軸に沿った大きな視界の変化のために、ユニークな課題を生んでいる。
従来の地上設定とは異なり、UAVは広範囲の高度で行動を取り込んでおり、外観の相違がかなり大きい。
高度の変化に合わせて調整された多視点定式化を導入し,高度の増加とともに認識精度が一貫して低下するビュー間の部分的な順序を経験的に観察する。
この観察は、UAVビューの階層構造を明示的にモデル化し、高度を越えて認識性能を向上させる新しいアプローチを動機付けている。
そこで本稿では,高度の異なる地点における視線依存情報を効果的に活用し,劇的な視線変化に対処する部分順序案内型多視点ネットワーク(POG-MVNet)を提案する。
このフレームワークは、3つの主要なコンポーネントで構成されている: 高度によるグループビューに対するヘッド・ツー・ボディ比を使用するビュー・パーティション(VP)モジュール、部分的な順序誘導の下でアクション関連およびビュー固有の特徴をアンタングル化するオーダー・アウェア・フィーチャー・デカップリング(OFD)モジュール、より困難なビューからより容易なビューへ情報的知識を伝達するために部分的な順序を使用するアクション・パーシャル・オーダー・ガイド(APOG)。
我々は、Drone-Action、MOD20、UAVの実験を行い、POG-MVNetが競合する手法よりも優れていることを示す。
例えば、POG-MVNetは、ASATおよびFARの最先端手法と比較して、ドローン・アクションの4.7%改善とUAVの3.5%改善を実現している。
コードはまもなくリリースされる。
関連論文リスト
- Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - Aerial Vision-and-Language Navigation with Grid-based View Selection and Map Construction [102.70482302750897]
Aerial Vision-and-Language Navigation (Aerial VLN)は、人間の指示に従って空中3D環境をナビゲートする無人航空機エージェントの取得を目的としている。
より長い航法、より複雑な3Dシーン、垂直アクションと水平アクションの相互作用の無視により、従来の手法はうまく機能しない。
グリッドベースのビュー選択タスクとして空のVLN動作予測を定式化する,グリッドベースのビュー選択フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T05:20:43Z) - UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery [14.599037804047724]
無人航空機物体検出(UAV-OD)は様々なシナリオで広く用いられている。
既存のUAV-ODアルゴリズムの多くは手動で設計したコンポーネントに依存しており、広範囲なチューニングを必要とする。
本稿では,UAV画像に適した効率的な検出変換器(DETR)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:11:14Z) - PPTFormer: Pseudo Multi-Perspective Transformer for UAV Segmentation [18.585299793391748]
我々は,新しいtextbfPseudo Multi-textbfPerspective textbfTranstextbfformerネットワークであるPTFormerを紹介する。
提案手法は,マルチパースペクティブ学習の強化のための疑似視点を作成することによって,実際のマルチパースペクティブデータの必要性を回避する。
論文 参考訳(メタデータ) (2024-06-28T03:43:49Z) - UCDNet: Multi-UAV Collaborative 3D Object Detection Network by Reliable Feature Mapping [14.401624713578737]
マルチUAVコラボレーティブな3Dオブジェクト検出は複雑な環境を知覚し理解することができる。
カメラによる複数UAV協調3Dオブジェクト検出のパラダイムであるUCDNetを提案する。
本手法は, ベースラインに比べて4.7%, 10%mAPの増加を示した。
論文 参考訳(メタデータ) (2024-06-07T05:27:32Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - Self-aligned Spatial Feature Extraction Network for UAV Vehicle
Re-identification [3.449626476434765]
同じ色とタイプを持つ車両は、UAVの観点から非常に類似した外観を示している。
最近の研究は、地域的特徴と構成要素的特徴によって区別される情報を抽出する傾向がある。
効率的なきめ細かい特徴を抽出し、退屈な注釈付け作業を避けるために、この手紙は教師なしの自己整合ネットワークを開発する。
論文 参考訳(メタデータ) (2022-01-08T14:25:54Z) - Perceiving Traffic from Aerial Images [86.994032967469]
本研究では,空中画像中の物体を検出するために,バタフライ検出器と呼ばれる物体検出手法を提案する。
UAVDT(UAVDT)とVisDrone 2019(VisDrone 2019)の2つのUAVデータセット上でButterfly Detectorを評価し、従来の最先端の手法よりも高速に動作し、かつリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-16T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。