論文の概要: RAPTOR: Real-Time High-Resolution UAV Video Prediction with Efficient Video Attention
- arxiv url: http://arxiv.org/abs/2512.21710v1
- Date: Thu, 25 Dec 2025 15:12:55 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:04:42.303395
- Title: RAPTOR: Real-Time High-Resolution UAV Video Prediction with Efficient Video Attention
- Title(参考訳): RAPTOR: 効率的なビデオアテンションによる高分解能UAV映像のリアルタイム予測
- Authors: Zhan Chen, Zile Guo, Enze Zhu, Peirong Zhang, Xiaoxuan Liu, Lei Wang, Yidan Zhang,
- Abstract要約: RAPTORはリアルタイムで高解像度のパフォーマンスを実現するビデオ予測アーキテクチャである。
その中心となるイノベーションは、高解像度モデリングを分解する新しいトランスレータモジュールであるEfficient Video Attention (EVA)である。
RAPTORは、実際のUAVナビゲーションタスクにおけるミッション成功率を18%向上させる。
- 参考スコア(独自算出の注目度): 15.333389194862677
- License:
- Abstract: Video prediction is plagued by a fundamental trilemma: achieving high-resolution and perceptual quality typically comes at the cost of real-time speed, hindering its use in latency-critical applications. This challenge is most acute for autonomous UAVs in dense urban environments, where foreseeing events from high-resolution imagery is non-negotiable for safety. Existing methods, reliant on iterative generation (diffusion, autoregressive models) or quadratic-complexity attention, fail to meet these stringent demands on edge hardware. To break this long-standing trade-off, we introduce RAPTOR, a video prediction architecture that achieves real-time, high-resolution performance. RAPTOR's single-pass design avoids the error accumulation and latency of iterative approaches. Its core innovation is Efficient Video Attention (EVA), a novel translator module that factorizes spatiotemporal modeling. Instead of processing flattened spacetime tokens with $O((ST)^2)$ or $O(ST)$ complexity, EVA alternates operations along the spatial (S) and temporal (T) axes. This factorization reduces the time complexity to $O(S + T)$ and memory complexity to $O(max(S, T))$, enabling global context modeling at $512^2$ resolution and beyond, operating directly on dense feature maps with a patch-free design. Complementing this architecture is a 3-stage training curriculum that progressively refines predictions from coarse structure to sharp, temporally coherent details. Experiments show RAPTOR is the first predictor to exceed 30 FPS on a Jetson AGX Orin for $512^2$ video, setting a new state-of-the-art on UAVid, KTH, and a custom high-resolution dataset in PSNR, SSIM, and LPIPS. Critically, RAPTOR boosts the mission success rate in a real-world UAV navigation task by 18/%, paving the way for safer and more anticipatory embodied agents.
- Abstract(参考訳): 高い解像度と知覚品質を達成するには、通常、リアルタイムのスピードを犠牲にし、レイテンシクリティカルなアプリケーションでの使用を妨げます。
この課題は、高解像度画像からのイベントの予測が安全にとって不可能な都市環境において、自律型UAVにとって最も緊急である。
既存の手法は、反復生成(拡散、自己回帰モデル)や二次複雑度注意に頼っているが、エッジハードウェアに対するこれらの厳しい要求を満たすには至らなかった。
この長年にわたるトレードオフを打破するために,リアルタイムかつ高解像度なパフォーマンスを実現するビデオ予測アーキテクチャであるRAPTORを紹介する。
RAPTORのシングルパス設計は、反復的なアプローチのエラーの蓄積と遅延を回避する。
中心となるイノベーションは、時空間モデリングを分解する新しいトランスレータモジュールであるEVA(Efficient Video Attention)である。
平らな時空トークンを$O(((ST)^2)$または$O(ST)$複雑さで処理する代わりに、EVAは空間(S)と時間(T)軸に沿って操作を交換する。
この分解は、時間的複雑さを$O(S + T)$に減らし、メモリの複雑さを$O(max(S, T)$に減らし、512^2$の解像度でグローバルなコンテキストモデリングを可能にする。
このアーキテクチャを補完する3段階のトレーニングカリキュラムは、粗い構造から鋭く、時間的に整合した細部まで、予測を段階的に洗練する。
実験によると、RAPTORはJetson AGX Orinで512^2$のビデオで30FPSを超えた最初の予測器であり、UAVid、KTH、PSNR、SSIM、LPIPSのカスタム高解像度データセットを新たに設定している。
RAPTORは、現実のUAVナビゲーションタスクにおけるミッション成功率を18%押し上げ、より安全で予想されるエージェントへの道を開く。
関連論文リスト
- Sliding Window Attention for Learned Video Compression [67.57073402826292]
本研究は3D Sliding Window Attention (SWA)を導入している。
Bjorntegaard Delta-rate saves to up 18.6% %。
論文 参考訳(メタデータ) (2025-10-04T20:11:43Z) - ResidualViT for Efficient Temporally Dense Video Encoding [66.57779133786131]
我々は,時間的に密集したタスクに対する計算機能のコスト削減に3つの貢献をしている。
まず、ビデオの時間的冗長性を活用するビジョントランスフォーマー(ViT)アーキテクチャ、ResidualViTを紹介する。
第2に,原基礎モデルのフレームレベルの特徴を近似する軽量蒸留方式を提案する。
論文 参考訳(メタデータ) (2025-09-16T17:12:23Z) - VideoMAR: Autoregressive Video Generatio with Continuous Tokens [33.906543515428424]
マスケベースの自己回帰モデルでは、連続空間における有望な画像生成能力が実証されている。
連続トークンを用いたデコーダのみの自己回帰画像-ビデオモデルである textbfVideoMAR を提案する。
VideoMARは以前の最先端(Cosmos I2V)よりはるかに少ないパラメータを必要とする。
論文 参考訳(メタデータ) (2025-06-17T04:08:18Z) - LiftVSR: Lifting Image Diffusion to Video Super-Resolution via Hybrid Temporal Modeling with Only 4$\times$RTX 4090s [16.456543112614586]
拡散モデルは、知覚品質を向上させることによって高度なビデオ超解像(VSR)を持つ。
本稿では、PixArt-$alpha$に先立って画像の拡散を緩和し、最先端の結果を得るための効率的なVSRフレームワークLiftVSRを提案する。
いくつかの典型的なVSRベンチマークの実験では、LiftVSRは計算コストを大幅に削減して優れた性能を発揮することが示されている。
論文 参考訳(メタデータ) (2025-06-10T07:49:33Z) - Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - $R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding [41.69321731689751]
ビデオの時間的グラウンドは、自然言語のクェリが与えられたビデオに関連性のあるクリップを埋めることを目的としている。
既存のVTGモデルは、フレームワイドのファイナルレイヤCLIP機能に基づいて構築されており、追加の時間バックボーンによって支援されている。
ビデオ時間的グラウンド化のためのパラメータとメモリ効率の変換学習フレームワークであるReversed Recurrent Tuning(R2$-Tuning)を提案する。
論文 参考訳(メタデータ) (2024-03-31T21:17:48Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。