論文の概要: E^2VTS: Energy-Efficient Video Text Spotting from Unmanned Aerial
Vehicles
- arxiv url: http://arxiv.org/abs/2206.02281v1
- Date: Sun, 5 Jun 2022 22:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:17:08.054672
- Title: E^2VTS: Energy-Efficient Video Text Spotting from Unmanned Aerial
Vehicles
- Title(参考訳): E^2VTS:無人航空機からの高効率ビデオテキストスポッティング
- Authors: Zhenyu Hu, Zhenyu Wu, Pengcheng Pi, Yunhe Xue, Jiayi Shen, Jianchao
Tan, Xiangru Lian, Zhangyang Wang, and Ji Liu
- Abstract要約: 無人航空機(UAV)ベースのビデオテキストスポッティングは、民間や軍事領域で広く使われている。
提案手法は,エネルギ効率と性能の競合的なトレードオフを達成し,従来の方法よりも優れていた。
- 参考スコア(独自算出の注目度): 78.50123964690094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned Aerial Vehicles (UAVs) based video text spotting has been
extensively used in civil and military domains. UAV's limited battery capacity
motivates us to develop an energy-efficient video text spotting solution. In
this paper, we first revisit RCNN's crop & resize training strategy and
empirically find that it outperforms aligned RoI sampling on a real-world video
text dataset captured by UAV. To reduce energy consumption, we further propose
a multi-stage image processor that takes videos' redundancy, continuity, and
mixed degradation into account. Lastly, the model is pruned and quantized
before deployed on Raspberry Pi. Our proposed energy-efficient video text
spotting solution, dubbed as E^2VTS, outperforms all previous methods by
achieving a competitive tradeoff between energy efficiency and performance. All
our codes and pre-trained models are available at
https://github.com/wuzhenyusjtu/LPCVC20-VideoTextSpotting.
- Abstract(参考訳): 無人航空機(uavs)ベースのビデオテキストスポッティングは、民間および軍事ドメインで広く使われている。
UAVの限られたバッテリー容量は、エネルギー効率の良いビデオテキストスポッティングソリューションを開発する動機となります。
本稿では,まずRCNNの作物・再サイズ訓練戦略を再検討し,UAVが捉えた実世界のビデオテキストデータセット上でのRoIサンプリングの精度を実証的に上回ることを示す。
省エネルギー化のため,映像の冗長性,連続性,複合劣化を考慮したマルチステージ画像処理を提案する。
最後に、このモデルはraspberry piにデプロイする前に刈り取られ、定量化される。
提案手法は,エネルギ効率と性能の競合的なトレードオフを達成し,E^2VTS(エネルギ効率の高いビデオテキストスポッティング)とよばれる。
私たちのコードと事前訓練済みモデルは、https://github.com/wuzhenyusjtu/LPCVC20-VideoTextSpotting.comで利用可能です。
関連論文リスト
- Streamlining Forest Wildfire Surveillance: AI-Enhanced UAVs Utilizing the FLAME Aerial Video Dataset for Lightweight and Efficient Monitoring [4.303063757163241]
本研究では,災害対応シナリオにおけるリアルタイムデータ処理の必要性を認識し,航空映像理解のための軽量かつ効率的なアプローチを提案する。
提案手法は、ポリシーネットワークを介してビデオ内の冗長部分を識別し、フレーム圧縮技術を用いて余分な情報を除去する。
ベースラインと比較して,提案手法は計算コストを13倍以上削減し,精度を3$%向上させる。
論文 参考訳(メタデータ) (2024-08-31T17:26:53Z) - BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation [22.870994478494566]
共同BEVオブジェクトとマップセグメンテーションのための新しいアプローチであるBEVCarを紹介する。
我々のアプローチの中核的な特徴は、まず生のレーダーデータのポイントベース符号化を学習することにある。
レーダ情報の導入は, 環境問題におけるロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-03-18T13:14:46Z) - Compressing Vision Transformers for Low-Resource Visual Learning [7.662469543657508]
Vision Transformer(ViT)とその変種は、画像分類、オブジェクト検出、セマンティックセグメンテーションといったタスクにおいて最先端の精度を提供する。
これらのモデルは大規模で計算量が多いため、モバイルおよびエッジシナリオへのデプロイメントが制限される。
我々は,蒸留,プルーニング,量子化といった一般的なモデル圧縮技術を活用して,視覚変換器をエッジに持ち込むための一歩を踏み出したい。
論文 参考訳(メタデータ) (2023-09-05T23:33:39Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Learning to Compress Unmanned Aerial Vehicle (UAV) Captured Video:
Benchmark and Analysis [54.07535860237662]
本稿では,UAVビデオ符号化学習のための新しいタスクを提案し,そのようなタスクに対する包括的で体系的なベンチマークを構築する。
このベンチマークは、ドローンプラットフォームにおけるビデオコーディングの研究と開発を加速させるものと期待されている。
論文 参考訳(メタデータ) (2023-01-15T15:18:02Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - A Simple Baseline for BEV Perception Without LiDAR [37.00868568802673]
LiDARに依存しない自動運転車のための3D認識システムの構築は、重要な研究課題である。
現在の方法では、車両の周囲のカメラから収集された多視点RGBデータを使用する。
本稿では,単純なベースラインモデルを提案する。このモデルでは,投影されたすべての画像位置から,単に「リフト」ステップで特徴を推定する。
論文 参考訳(メタデータ) (2022-06-16T06:57:32Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。