論文の概要: See Without Decoding: Motion-Vector-Based Tracking in Compressed Video
- arxiv url: http://arxiv.org/abs/2602.00153v1
- Date: Thu, 29 Jan 2026 15:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.010103
- Title: See Without Decoding: Motion-Vector-Based Tracking in Compressed Video
- Title(参考訳): 復号なしで見る:圧縮ビデオのモーションベクターによる追跡
- Authors: Axel Duché, Clément Chatelain, Gilles Gasso,
- Abstract要約: 本稿では,RGBビデオの完全復号化を必要とせず,ビデオストリーム上で直接動作する軽量な圧縮ドメイン追跡モデルを提案する。
圧縮データからの運動ベクトルと変換係数を用いて、深層モデルは、MOTS15/17/20データセット上のRGBベースラインに対してわずか4%のmAP@0.5ドロップで3.7までの計算速度を達成し、フレーム間のオブジェクト境界ボックスを伝搬する。
- 参考スコア(独自算出の注目度): 5.682782918456227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a lightweight compressed-domain tracking model that operates directly on video streams, without requiring full RGB video decoding. Using motion vectors and transform coefficients from compressed data, our deep model propagates object bounding boxes across frames, achieving a computational speed-up of order up to 3.7 with only a slight 4% mAP@0.5 drop vs RGB baseline on MOTS15/17/20 datasets. These results highlight codec-domain motion modeling efficiency for real-time analytics in large monitoring systems.
- Abstract(参考訳): 本稿では,RGBビデオの完全復号化を必要とせず,ビデオストリーム上で直接動作する軽量な圧縮ドメイン追跡モデルを提案する。
圧縮データからの運動ベクトルと変換係数を用いて、深層モデルは、MOTS15/17/20データセット上のRGBベースラインに対してわずか4%のmAP@0.5ドロップで3.7までの計算速度を達成し、フレーム間のオブジェクト境界ボックスを伝搬する。
これらの結果から,大規模監視システムにおけるリアルタイム解析におけるコーデックドメイン動作モデリングの効率性を強調した。
関連論文リスト
- VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction [55.66673587952058]
ビデオ理解モデルは、大規模データセットの禁止ストレージと計算コストによって、ますます制限されている。
VideoCompressaはビデオデータ合成のための新しいフレームワークで、動的潜在圧縮として問題を再構成する。
論文 参考訳(メタデータ) (2025-11-24T07:07:58Z) - SwiTrack: Tri-State Switch for Cross-Modal Object Tracking [74.15663758681849]
クロスモーダルオブジェクトトラッキング(CMOT)は、ビデオストリームが異なるモード間で切り替える間、ターゲットの一貫性を維持する新しいタスクである。
SwiTrackは3つの特別なストリームを配置することでCMOTを再定義する新しいステートスイッチングフレームワークである。
論文 参考訳(メタデータ) (2025-11-20T10:52:54Z) - 4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming [52.76837132019501]
本稿では,新しい階層型4D圧縮フレームワークである4DGCProを紹介する。
4DGCProは、プログレッシブボリュームビデオストリーミングによるリアルタイムモバイルデコーディングと高品質なレンダリングを容易にする。
エンドツーエンドのエントロピー最適化トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:38:17Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Motion-aware Dynamic Graph Neural Network for Video Compressive Sensing [14.67994875448175]
ビデオスナップショットイメージング(SCI)は、2D検出器を使用してシーケンシャルなビデオフレームをキャプチャし、それらを1つの測定値に圧縮する。
既存の再建手法の多くは、長距離空間および時間的依存関係を効率的に捉えることができない。
グラフニューラルネットワーク(GNN)に基づくフレキシブルでロバストなアプローチを提案し,距離に関わらず,空間と時間における画素間の非局所的相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-03-01T12:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。