論文の概要: Efficient On-Board Processing of Oblique UAV Video for Rapid Flood Extent Mapping
- arxiv url: http://arxiv.org/abs/2601.11290v1
- Date: Fri, 16 Jan 2026 13:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.508257
- Title: Efficient On-Board Processing of Oblique UAV Video for Rapid Flood Extent Mapping
- Title(参考訳): 斜めUAV映像の高速消火物マッピングのための高能率オンボード処理
- Authors: Vishisht Sharma, Sam Leroux, Lisa Landuyt, Nick Witvrouwen, Pieter Simoens,
- Abstract要約: TTR(Temporal Token Reuse)は、組み込みデバイス上でビデオセグメンテーションを高速化する適応型推論フレームワークである。
我々は,TTRがセグメンテーション精度(0.5% mIoU)の劣化を無視して,推論遅延の30%低減を実現していることを示す。
これらの結果から,TTRは運用フロンティアを効果的にシフトさせ,高忠実でリアルタイムな斜めビデオ理解を可能にすることが確認された。
- 参考スコア(独自算出の注目度): 7.460695517551536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective disaster response relies on rapid disaster response, where oblique aerial video is the primary modality for initial scouting due to its ability to maximize spatial coverage and situational awareness in limited flight time. However, the on-board processing of high-resolution oblique streams is severely bottlenecked by the strict Size, Weight, and Power (SWaP) constraints of Unmanned Aerial Vehicles (UAVs). The computational density required to process these wide-field-of-view streams precludes low-latency inference on standard edge hardware. To address this, we propose Temporal Token Reuse (TTR), an adaptive inference framework capable of accelerating video segmentation on embedded devices. TTR exploits the intrinsic spatiotemporal redundancy of aerial video by formulating image patches as tokens; it utilizes a lightweight similarity metric to dynamically identify static regions and propagate their precomputed deep features, thereby bypassing redundant backbone computations. We validate the framework on standard benchmarks and a newly curated Oblique Floodwater Dataset designed for hydrological monitoring. Experimental results on edge-grade hardware demonstrate that TTR achieves a 30% reduction in inference latency with negligible degradation in segmentation accuracy (< 0.5% mIoU). These findings confirm that TTR effectively shifts the operational Pareto frontier, enabling high-fidelity, real-time oblique video understanding for time-critical remote sensing missions
- Abstract(参考訳): 効果的な災害対応は急激な災害対応に依存しており、斜めの空中映像が初期偵察の主要なモダリティとなっている。
しかし、高分解能斜めストリームのオンボード処理は、無人航空機(UAV)の厳密なサイズ、重量、パワー(SWaP)の制約によって著しくボトルネックとなる。
これらの広視野ストリームを処理するために必要な計算密度は、標準エッジハードウェアの低遅延推論を妨げる。
そこで本研究では,組込みデバイス上での映像セグメンテーションを高速化する適応型推論フレームワークであるTTRを提案する。
TTRは、画像パッチをトークンとして定式化し、静止領域を動的に識別し、あらかじめ計算した深い特徴を伝播する軽量な類似度指標を利用して、冗長なバックボーン計算をバイパスすることで、空中ビデオの固有時空間冗長性を利用する。
我々は,このフレームワークを標準ベンチマークで検証し,水文モニタリング用に設計された斜め洪水データセットを新たに作成する。
エッジグレードハードウェアの実験結果から,TTRはセグメンテーション精度(0.5% mIoU)の劣化を無視して,推論遅延の30%低減を実現していることがわかった。
これらの結果から、TTRはパレートフロンティアを効果的にシフトし、高忠実でリアルタイムな斜め映像理解を可能にする。
関連論文リスト
- Video Depth Propagation [54.523028170425256]
既存の手法は単純なフレーム・バイ・フレームの単分子モデルに依存しており、時間的矛盾と不正確な結果をもたらす。
本稿では,オンラインビデオパイプラインを効果的に活用し,深い特徴伝達を行うVeloDepthを提案する。
構造的に時間的整合性を強制し, 連続するフレーム間に安定した深さ予測を行い, 効率を向上する。
論文 参考訳(メタデータ) (2025-12-11T15:08:37Z) - Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features [51.5076190312734]
ビデオ超解法アプローチは、エラーの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされる。
ビデオ超解像(DGAF-VSR)に適した特徴を持つ新しい誘導拡散モデルを提案する。
合成および実世界のデータセットの実験では、DGAF-VSRがVSRの重要な側面において最先端の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-11-21T03:40:45Z) - Self-Supervised Compression and Artifact Correction for Streaming Underwater Imaging Sonar [14.023965177100239]
実時間撮像ソナーは、光センシングが信頼性の低い環境下での水中監視において重要なツールとなっている。
クリーンノイズペアや合成仮定を使わずに圧縮とアーティファクトの補正を共同で行う自己教師型フレームワークSCOPEを提案する。
SCOPEは太平洋岸北西部の3つの河川に数ヶ月間展開され、野生でのリアルタイムサケの列挙と環境モニタリングを支援している。
論文 参考訳(メタデータ) (2025-11-17T21:19:15Z) - ResidualViT for Efficient Temporally Dense Video Encoding [66.57779133786131]
我々は,時間的に密集したタスクに対する計算機能のコスト削減に3つの貢献をしている。
まず、ビデオの時間的冗長性を活用するビジョントランスフォーマー(ViT)アーキテクチャ、ResidualViTを紹介する。
第2に,原基礎モデルのフレームレベルの特徴を近似する軽量蒸留方式を提案する。
論文 参考訳(メタデータ) (2025-09-16T17:12:23Z) - Lightweight CNNs for Embedded SAR Ship Target Detection and Classification [0.0]
高レベルの製品を生成するためのオンボード処理は、ダウンリンクが必要なデータ量を減らすことができる。
本研究では,非焦点SARデータに基づくリアルタイム推論のためのニューラルネットワークの提案と評価を行う。
論文 参考訳(メタデータ) (2025-08-14T14:55:19Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。