論文の概要: UAV-OVO: Out-of-Viewpoint Generalization in UAV Action Recognition
- arxiv url: http://arxiv.org/abs/2605.25615v1
- Date: Mon, 25 May 2026 09:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.542482
- Title: UAV-OVO: Out-of-Viewpoint Generalization in UAV Action Recognition
- Title(参考訳): UAV-OVO:UAV行動認識における視点外一般化
- Authors: Yu Xia, Zhengbo Zhang, Shuaihu Zhang, Zhigang Tu,
- Abstract要約: UAV-OVO(Out-of-View Generalization benchmark for UAV Action Recognition)を紹介する。
LATER, LoRA-Anchored Test-time Re-centeringを提案する。Low-Rank Adaptation (LoRA) で認識器を適応させ,学習したLoRAサブスペースをオンライン機能再中心のためのセマンティックアンカーとして利用する。
- 参考スコア(独自算出の注目度): 11.247721763307178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: UAV action recognition faces a deployment shift that standard benchmarks often obscure: a model trained on UAV footage captured from low-depression viewpoints may be required to recognize the same action classes from high-depression viewpoints. While the action labels remain unchanged, this shift alters body visibility, motion projection, and scene context, encouraging models to rely on viewpoint-specific shortcuts. We introduce UAV-OVO, an Out-of-Viewpoint generalization benchmark for UAV action recognition. UAV-OVO derives view scores from uncalibrated videos, uses a view-isolation band to assign low-depression videos to the training and in-distribution test splits while reserving high-depression videos for out-of-distribution testing, and constructs ID/OOD test sets matched by class distribution so that performance differences reflect viewpoint shift rather than label imbalance. Across representative video recognizers, UAV-OVO reveals a substantial ID/OOD gap: models that fit the low-depression training distribution well often fail to transfer to held-out high-depression views, exposing viewpoint shortcuts hidden by aggregate accuracy. We further propose LATER, LoRA-Anchored Test-time Re-centering, which first adapts the recognizer with Low-Rank Adaptation (LoRA) and then uses the learned LoRA subspace as a semantic anchor for online feature re-centering. Specifically, LATER projects target-domain displacement onto the orthogonal complement of the LoRA subspace before re-centering features, reducing viewpoint-induced drift while preserving task-relevant semantics. Together, UAV-OVO and LATER provide a controlled testbed and a practical adaptation method for viewpoint-robust UAV video understanding.
- Abstract(参考訳): UAVアクション認識は、標準ベンチマークがしばしば曖昧なデプロイメントシフトに直面している。低圧縮視点から撮影されたUAV映像に基づいてトレーニングされたモデルは、高圧縮視点から同じアクションクラスを認識するために必要かもしれない。
アクションラベルは変更されていないが、この変更は身体の視認性、モーションプロジェクション、シーンコンテキストを変化させ、モデルが視点固有のショートカットに依存するように促す。
UAV-OVO(Out-of-View Generalization benchmark for UAV Action Recognition)を紹介する。
UAV-OVOは、未校正ビデオからのビュースコアを導出し、ビューアイソレーションバンドを使用して、トレーニングとインディストリビューションテストの分割に低圧動画を割り当て、アウト・オブ・ディストリビューションテスト用のハイデプレッションビデオを保持し、クラス分布にマッチしたID/OODテストセットを構築し、性能差がラベルの不均衡よりも視点シフトを反映するようにした。
UAV-OVOは、代表的ビデオ認識装置全体にわたって、重要なID/OODギャップを明らかにしている。低圧縮トレーニング分布によく適合するモデルは、ホールドアウトされたハイデプレッションビューへの転送に失敗し、集約精度によって隠された視点ショートカットを露呈する。
さらにLATER, LoRA-Anchored Test-time Re-centeringを提案し、Low-Rank Adaptation (LoRA)で認識器を適応させ、学習したLoRAサブスペースをオンライン機能再中心のためのセマンティックアンカーとして利用する。
具体的には、LATERはLORA部分空間の直交部分へのターゲット領域の変位を特徴の再集中前に予測し、タスク関連セマンティクスを保ちながら視点誘起ドリフトを減少させる。
UAV-OVOとLATERは、制御されたテストベッドと、視点を乱すUAVビデオ理解のための実践的な適応方法を提供する。
関連論文リスト
- SoLAR: Error-Resilient Streamable Long-Horizon Free-Viewpoint Video Reconstruction with Anchor Activation and Latent Recalibration [57.159190580279585]
ビット割り当て理論により、速度歪み最適化フレームワーク内で動的アンカーベースのボリュームビデオ表現を解析する。
我々は,長いシーケンスの復元品質を安定的に維持する,エラー回復性の最初のFVVフレームワークである textbfSoLAR を提案する。
論文 参考訳(メタデータ) (2026-05-08T06:48:59Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - Beyond the Horizon: Decoupling Multi-View UAV Action Recognition via Partial Order Transfer [40.02916765848461]
無人航空機(UAV)における行動認識は、垂直の空間軸に沿った視界の変化によって、ユニークな課題を生んでいる。
高度の変化に合わせて調整された多視点定式化を導入し,高度の増加とともに認識精度が一貫して低下するビュー間の部分的な順序を経験的に観察する。
本稿では,高度の異なる地点における視線依存情報を効果的に活用することにより,劇的な視線変動に対処する部分順序案内型多視点ネットワーク(POG-MVNet)を提案する。
論文 参考訳(メタデータ) (2025-04-29T08:22:13Z) - UAVDB: Point-Guided Masks for UAV Detection and Segmentation [0.03464344220266879]
UAVの検出とセグメンテーションのための新しいベンチマークデータセットであるUAVDBを提案する。
ポイント誘導の弱い監視パイプライン上に構築されている。
UAVDBは、可視オブジェクトからほぼ1ピクセルのインスタンスまで、さまざまなスケールでUAVをキャプチャする。
論文 参考訳(メタデータ) (2024-09-09T13:27:53Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - View Distribution Alignment with Progressive Adversarial Learning for
UAV Visual Geo-Localization [10.442998017077795]
無人航空機(UAV)の視覚的ジオローカライゼーションは、異なるビュー、すなわちUAVビューと衛星ビューから取得した同じ地理的ターゲットの画像とマッチングすることを目的としている。
以前の作業では、UAVや衛星が撮影した画像を共有特徴空間にマッピングし、位置に依存した特徴を学習するための分類フレームワークを使用していた。
本稿では,2つのビューの分布アライメントを導入し,共通空間における距離を短縮する。
論文 参考訳(メタデータ) (2024-01-03T06:58:09Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。