Fugu-MT 論文翻訳(概要): Towards Live Video Analytics with On-Drone Deeper-yet-Compatible Compression

論文の概要: Towards Live Video Analytics with On-Drone Deeper-yet-Compatible Compression

arxiv url: http://arxiv.org/abs/2111.06263v1
Date: Wed, 10 Nov 2021 16:53:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-12 15:02:17.421425
Title: Towards Live Video Analytics with On-Drone Deeper-yet-Compatible Compression
Title（参考訳）: On-Drone Deeper-yet-Compatible Compressionを用いたライブビデオ分析
Authors: Junpeng Guo and Chunyi Peng
Abstract要約: DCCは、ドローンからエッジにストリーミングされたビデオを圧縮する重要な技術的問題に取り組む。我々は,DCCを車両検出の実証的な応用として試作し,その効率性を代表シナリオで検証した。
参考スコア（独自算出の注目度）: 9.862839448218844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present DCC(Deeper-yet-Compatible Compression), one enabling technique for real-time drone-sourced edge-assisted video analytics built on top of the existing codec. DCC tackles an important technical problem to compress streamed video from the drone to the edge without scarifying accuracy and timeliness of video analytical tasks performed at the edge. DCC is inspired by the fact that not every bit in streamed video is equally valuable to video analytics, which opens new compression room over the conventional analytics-oblivious video codec technology. We exploit drone-specific context and intermediate hints from object detection to pursue adaptive fidelity needed to retain analytical quality. We have prototyped DCC in one showcase application of vehicle detection and validated its efficiency in representative scenarios. DCC has reduced transmission volume by 9.5-fold over the baseline approach and 19-683% over the state-of-the-art with comparable detection accuracy.
Abstract（参考訳）: 本研究では,既存のコーデック上に構築されたリアルタイムドローンによるエッジ支援ビデオ解析を実現するDCC(Deeper-yet-Compatible Compression)を提案する。 dccは、ドローンからエッジにストリーミングされたビデオを圧縮する重要な技術的問題に取り組んでいる。 DCCは、ストリーミングされたビデオのすべてのビットがビデオ分析に等しく価値があるわけではないという事実にインスパイアされている。ドローン特有のコンテキストとオブジェクト検出からの中間ヒントを利用して、分析品質を維持するために必要な適応的忠実度を追求する。車両検出の実証的な応用としてDCCを試作し,その効率性を代表シナリオで検証した。 DCCは、ベースラインアプローチで9.5倍、最先端の精度で19-683%の伝送量を削減した。

関連論文リスト

DiGIT: Multi-Dilated Gated Encoder and Central-Adjacent Region Integrated Decoder for Temporal Action Detection Transformer [25.180317527112372]
時間的動作検出のためのクエリベースの検出器の鍵となる制限は、もともと設計されたアーキテクチャのオブジェクト検出への直接適応から生じる。時間的動作検出変換器(DiGIT)のための多次元ゲートエンコーダと中央隣接領域統合デコーダを提案する。提案手法では,マルチスケールの変形可能なアテンションとフィードフォワードネットワークからなる既存のエンコーダを,マルチディイルゲートエンコーダに置き換える。
論文参考訳（メタデータ） (2025-05-09T01:17:30Z)
Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文参考訳（メタデータ） (2025-03-27T13:01:53Z)
REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文参考訳（メタデータ） (2025-03-11T17:51:07Z)
DetVPCC: RoI-based Point Cloud Sequence Compression for 3D Object Detection [4.350982395442569]
MPEG規格化されたビデオベースポイントクラウド圧縮(VPCC)は、人間の知覚に対する高い圧縮効率を実現する。 VPCCは、3Dオブジェクト検出器をサポートする際に、貯蓄と検出精度の間のトレードオフに苦慮している。本稿では,効率的なポイントクラウドシーケンス圧縮のために,関心領域(RoI)エンコーディングをVPCCと統合する新しい手法であるDetVPCCを提案する。
論文参考訳（メタデータ） (2025-02-07T10:16:15Z)
RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文参考訳（メタデータ） (2025-01-21T15:36:08Z)
A motion-based compression algorithm for resource-constrained video camera traps [4.349838917565205]
本稿では,カメラトラップに特化して設計された動き解析に基づくビデオ圧縮アルゴリズムを提案する。このアルゴリズムは、受粉監視に関連する動きを描写した画像領域のみを特定し、記憶する。本実験は,昆虫行動解析における重要な情報を保存するアルゴリズムの能力を実証するものである。
論文参考訳（メタデータ） (2024-05-23T10:39:33Z)
STAC: Leveraging Spatio-Temporal Data Associations For Efficient Cross-Camera Streaming and Analytics [0.0]
本稿では,制約されたネットワーク環境下でのリアルタイム解析と推論を実現する,効率的なクロスカメラ監視システムを提案する。ストリーム特性に対するフレームフィルタリングと最先端圧縮をSTACと統合する。本研究では,このデータセットを用いてSTAの性能評価を行い,完全性評価のための精度指標と推論率を測定した。
論文参考訳（メタデータ） (2024-01-27T04:02:52Z)
COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction [60.87168562615171]
自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。 COTRは、8%から15%の相対的な改善でベースラインを上回っている。
論文参考訳（メタデータ） (2023-12-04T14:23:18Z)
Learn to Compress (LtC): Efficient Learning-based Streaming Video Analytics [3.2872586139884623]
LtCは、ビデオソースと分析サーバの協調フレームワークで、分析パイプライン内のビデオストリームの削減を効率的に学習する。 LtCは28～35%の帯域幅を使用でき、最近公開されたアートストリーミングフレームワークと比較して最大45%のレスポンス遅延がある。
論文参考訳（メタデータ） (2023-07-22T21:36:03Z)
VNVC: A Versatile Neural Video Coding Framework for Efficient Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T03:04:57Z)
Spatiotemporal Attention-based Semantic Compression for Real-time Video Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文参考訳（メタデータ） (2023-05-22T07:47:27Z)
Argus++: Robust Real-time Activity Detection for Unconstrained Video Streams with Overlapping Cube Proposals [85.76513755331318]
Argus++は、制約のないビデオストリームを分析するための堅牢なリアルタイムアクティビティ検出システムである。システム全体としては、スタンドアロンのコンシューマレベルのハードウェア上でのリアルタイム処理に最適化されている。
論文参考訳（メタデータ） (2022-01-14T03:35:22Z)
FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。 Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文参考訳（メタデータ） (2021-08-27T03:07:55Z)
Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features [13.033517345182728]
Deepfakesは、ターゲットの顔を元の顔にビデオで移植する悪質なテクニックの1つだ。これまでのDeepfakesビデオ検出の取り組みは主に外観機能に焦点を当てており、高度な操作によってバイパスされるリスクがある。高精度な幾何学的特徴を時間的モデル化してDeepfakesビデオを検出するための効率的かつ堅牢なフレームワークLRNetを提案します。
論文参考訳（メタデータ） (2021-04-09T16:57:55Z)
Video Coding for Machines: A Paradigm of Collaborative Compression and Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文参考訳（メタデータ） (2020-01-10T17:24:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。