論文の概要: Learning on the Fly: Replay-Based Continual Object Perception for Indoor Drones
- arxiv url: http://arxiv.org/abs/2602.13440v1
- Date: Fri, 13 Feb 2026 20:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.032653
- Title: Learning on the Fly: Replay-Based Continual Object Perception for Indoor Drones
- Title(参考訳): 飛行中の学習:リプレイによる屋内ドローンの連続物体認識
- Authors: Sebastian-Ion Nae, Mihai-Eugen Barbu, Sebastian Mocanu, Marius Leordeanu,
- Abstract要約: リプレイベースの3つのCIL戦略をベンチマークする。エクスペリエンス・リプレイ(ER)、最大干渉型リトリーバル(MIR)、フォーッティング・アウェア・リプレイ(FAR)である。
さらに実験により,リプレイに基づく連続学習がエッジエアエアシステムに効果的に適用できることが実証された。
- 参考スコア(独自算出の注目度): 4.473167683810348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents such as indoor drones must learn new object classes in real-time while limiting catastrophic forgetting, motivating Class-Incremental Learning (CIL). However, most unmanned aerial vehicle (UAV) datasets focus on outdoor scenes and offer limited temporally coherent indoor videos. We introduce an indoor dataset of $14,400$ frames capturing inter-drone and ground vehicle footage, annotated via a semi-automatic workflow with a $98.6\%$ first-pass labeling agreement before final manual verification. Using this dataset, we benchmark 3 replay-based CIL strategies: Experience Replay (ER), Maximally Interfered Retrieval (MIR), and Forgetting-Aware Replay (FAR), using YOLOv11-nano as a resource-efficient detector for deployment-constrained UAV platforms. Under tight memory budgets ($5-10\%$ replay), FAR performs better than the rest, achieving an average accuracy (ACC, $mAP_{50-95}$ across increments) of $82.96\%$ with $5\%$ replay. Gradient-weighted class activation mapping (Grad-CAM) analysis shows attention shifts across classes in mixed scenes, which is associated with reduced localization quality for drones. The experiments further demonstrate that replay-based continual learning can be effectively applied to edge aerial systems. Overall, this work contributes an indoor UAV video dataset with preserved temporal coherence and an evaluation of replay-based CIL under limited replay budgets. Project page: https://spacetime-vision-robotics-laboratory.github.io/learning-on-the-fly-cl
- Abstract(参考訳): 屋内ドローンのような自律型エージェントは、破滅的な忘れ込みを制限し、クラスインクリメンタルラーニング(CIL)を動機付けながら、新しいオブジェクトクラスをリアルタイムで学習しなければならない。
しかしながら、ほとんどの無人航空機(UAV)データセットは屋外シーンに焦点を当て、時間的に一貫性のある屋内ビデオを提供する。
最終マニュアル検証の前に9,8.6\%のファーストパスラベリング契約でセミオートマチックなワークフローを通じてアノテートされた、ドローン間および地上車両の映像をキャプチャする14,400ドルフレームの屋内データセットを紹介した。
このデータセットを用いて、我々は、3つのリプレイベースのCIL戦略をベンチマークする: Experience Replay (ER), Maximally Interfered Retrieval (MIR), and Forgetting-Aware Replay (FAR), using YOLOv11-nano as a resources- efficient detector for deployment-constrained UAV platform。
厳格なメモリ予算 (5-10\%$ replay) の下では、FARは残りのものよりも優れており、平均精度 (ACC, $mAP_{50-95}$) は 82.96\%$ 5\%$ replay である。
グラディエント重み付きクラスアクティベーションマッピング(Grad-CAM)解析では、混合シーンにおけるクラス間の注意の変化がドローンのローカライゼーション品質の低下に関連している。
さらに実験により,リプレイに基づく連続学習がエッジエアエアシステムに効果的に適用できることが実証された。
本研究は, 時間的コヒーレンスを保存した室内UAVビデオデータセットと, リプレイ予算の限定したリプレイベースCILの評価に寄与する。
プロジェクトページ: https://spacetime-vision-robotics-laboratory.github.io/learning-on-the-cl
関連論文リスト
- KV-Tracker: Real-Time Pose Tracking with Transformers [30.32327636560028]
マルチビュー3D幾何ネットワークは強力だが、リアルタイムアプリケーションでは極めて遅い。
モノラルなRGBビデオからオブジェクトやシーンをリアルタイムに6-DoFのポーズトラッキングとオンライン再構築を可能にする新しい方法を提案する。
論文 参考訳(メタデータ) (2025-12-27T13:02:30Z) - Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。
また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - SOAR: Self-supervision Optimized UAV Action Recognition with Efficient Object-Aware Pretraining [65.9024395309316]
無人航空機(UAV)が捉えた航空映像の自己監督型事前学習アルゴリズムについて紹介する。
我々は,UAVビデオの事前学習効率と下流行動認識性能を向上させるために,事前学習プロセスを通じて人体知識を取り入れた。
論文 参考訳(メタデータ) (2024-09-26T21:15:22Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - Towards Viewpoint Robustness in Bird's Eye View Segmentation [85.99907496019972]
AV知覚モデルがカメラ視点の変化にどのように影響するかを考察する。
投機時のピッチ、ヨー、深さ、高さへの小さな変化は、大きな性能低下につながる。
本稿では,新しいビュー合成技術を導入し,収集したデータをターゲットリグの視点に変換する手法を提案する。
論文 参考訳(メタデータ) (2023-09-11T02:10:07Z) - MITFAS: Mutual Information based Temporal Feature Alignment and Sampling
for Aerial Video Action Recognition [59.905048445296906]
UAVビデオにおける行動認識のための新しいアプローチを提案する。
我々は、時間領域における人間の行動や動きに対応する領域を計算・調整するために、相互情報の概念を用いる。
実際には、最先端の手法よりもTop-1の精度が18.9%向上している。
論文 参考訳(メタデータ) (2023-03-05T04:05:17Z) - AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning [63.628195002143734]
本稿では,空中映像の行動認識のための新しい手法を提案する。
提案手法は,UAVを用いて撮影したビデオに対して設計されており,エッジやモバイルデバイス上でも動作可能である。
我々は、カスタマイズされたオートズームを使用して、人間のターゲットを自動的に識別し、適切にスケールする学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-02T21:24:19Z) - Aerial View Goal Localization with Reinforcement Learning [6.165163123577484]
本稿では,実際のUAVへのアクセスを必要とせずに,SAR(Search-and-Rescue)のようなセットアップをエミュレートするフレームワークを提案する。
この枠組みでは、エージェントが空中画像(探索領域のプロキシ)上で動作し、視覚的手がかりとして記述されたゴールのローカライズを行う。
AiRLocは、探索(遠方目標探索)と搾取(近方目標の局所化)を分離する強化学習(RL)に基づくモデルである。
論文 参考訳(メタデータ) (2022-09-08T10:27:53Z) - Motion Planning by Reinforcement Learning for an Unmanned Aerial Vehicle
in Virtual Open Space with Static Obstacles [3.5356468463540214]
静的障害物のあるオープンスペースにおける無人航空機(UAV)の動作計画に強化学習を適用した。
強化学習が進むにつれて,モデルの平均報酬と目標率が向上した。
論文 参考訳(メタデータ) (2020-09-24T16:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。