論文の概要: MAVR-Net: Robust Multi-View Learning for MAV Action Recognition with Cross-View Attention
- arxiv url: http://arxiv.org/abs/2510.15448v1
- Date: Fri, 17 Oct 2025 09:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.549401
- Title: MAVR-Net: Robust Multi-View Learning for MAV Action Recognition with Cross-View Attention
- Title(参考訳): MAVR-Net: クロスビュー注意によるMAV行動認識のためのロバストなマルチビュー学習
- Authors: Nengbo Zhang, Hann Woei Ho,
- Abstract要約: 本稿では,マルチビュー学習に基づく行動認識フレームワークMAVR-Netを提案する。
従来の単一ビュー方式とは異なり、提案手法は生フレーム、光フロー、RGBセグメンテーションマスクを含む3種類の補完的なデータを組み合わせている。
具体的には、ResNetベースのエンコーダを用いて各ビューから異種特徴を抽出し、MAV動作パターンの詳細を保存するためにマルチスケールの特徴ピラミッドを採用する。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recognizing the motion of Micro Aerial Vehicles (MAVs) is crucial for enabling cooperative perception and control in autonomous aerial swarms. Yet, vision-based recognition models relying only on RGB data often fail to capture the complex spatial temporal characteristics of MAV motion, which limits their ability to distinguish different actions. To overcome this problem, this paper presents MAVR-Net, a multi-view learning-based MAV action recognition framework. Unlike traditional single-view methods, the proposed approach combines three complementary types of data, including raw RGB frames, optical flow, and segmentation masks, to improve the robustness and accuracy of MAV motion recognition. Specifically, ResNet-based encoders are used to extract discriminative features from each view, and a multi-scale feature pyramid is adopted to preserve the spatiotemporal details of MAV motion patterns. To enhance the interaction between different views, a cross-view attention module is introduced to model the dependencies among various modalities and feature scales. In addition, a multi-view alignment loss is designed to ensure semantic consistency and strengthen cross-view feature representations. Experimental results on benchmark MAV action datasets show that our method clearly outperforms existing approaches, achieving 97.8\%, 96.5\%, and 92.8\% accuracy on the Short MAV, Medium MAV, and Long MAV datasets, respectively.
- Abstract(参考訳): 自律飛行群における協調的な認識と制御を可能にするためには, マイクロエアロビー(MAV)の動作を認識することが重要である。
しかし、RGBデータのみに依存する視覚ベースの認識モデルは、しばしばMAV動作の複雑な空間的時間特性を捉えず、異なる動作を区別する能力を制限する。
そこで本研究では,マルチビュー学習に基づく行動認識フレームワークMAVR-Netを提案する。
従来のシングルビュー手法とは異なり、提案手法は生のRGBフレーム、光フロー、セグメンテーションマスクを含む3種類の補完データを組み合わせて、MAVモーション認識の堅牢性と精度を向上させる。
具体的には、ResNetベースのエンコーダを用いて各ビューから識別的特徴を抽出し、MAV動作パターンの時空間的詳細を保存するためにマルチスケールの特徴ピラミッドを採用する。
異なるビュー間のインタラクションを強化するため、様々なモダリティと機能スケール間の依存関係をモデル化するクロスビューアテンションモジュールが導入された。
さらに、セマンティック一貫性を確保し、クロスビュー特徴表現を強化するために、マルチビューアライメントロスが設計されている。
ベンチマークMAV動作データセットによる実験結果から,提案手法は既存の手法よりも明らかに優れており,ショートMAV,ミディアムMAV,ロングMAVで97.8\%,96.5\%,92.8\%の精度が得られた。
関連論文リスト
- Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human
Activity Recognition [33.94582546667864]
マルチモーダルセンサは、人間の活動認識のための正確な機械学習方法を開発するために補完情報を提供する。
本稿では,RGBカメラと慣性計測ユニット(IMU)を用いたHARのための効率的なマルチモーダルニューラルネットワークアーキテクチャを提案する。
3つの確立された公開データセットを用いて,HARにおけるMTSAの有効性と効率を評価した。
論文 参考訳(メタデータ) (2022-10-14T08:05:16Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。