論文の概要: Extend the FFmpeg Framework to Analyze Media Content
- arxiv url: http://arxiv.org/abs/2103.03539v1
- Date: Fri, 5 Mar 2021 08:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 16:38:35.195803
- Title: Extend the FFmpeg Framework to Analyze Media Content
- Title(参考訳): FFmpegフレームワークを拡張してメディアコンテンツを分析
- Authors: Xintian Wu, Pengfei Qu, Shaofei Wang, Lin Xie and Jie Dong
- Abstract要約: 本稿ではffフレームワーク用に開発されたビデオ解析プラグインについて紹介する。
マルチメディアアプリケーションは、FFメディア機能をその包括的メディアエンコーディング、デコード、モックス、デデマ機能にますます活用している。
プラグインは特定のFFスレッド制限を克服するためにスレッド最適化されている。
- 参考スコア(独自算出の注目度): 4.477334196183495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new set of video analytics plugins developed for the
FFmpeg framework. Multimedia applications that increasingly utilize the FFmpeg
media features for its comprehensive media encoding, decoding, muxing, and
demuxing capabilities can now additionally analyze the video content based on
AI models. The plugins are thread optimized for best performance overcoming
certain FFmpeg threading limitations. The plugins utilize the Intel OpenVINO
Toolkit inference engine as the backend. The analytics workloads are
accelerated on different platforms such as CPU, GPU, FPGA or specialized
analytics accelerators. With our reference implementation, the feature of
OpenVINO as inference backend has been pushed into FFmpeg mainstream
repository. We plan to submit more patches later.
- Abstract(参考訳): 本稿では、FFmpegフレームワーク用に開発された新しいビデオ分析プラグインセットを紹介します。
FFmpegメディア機能をその包括的メディアエンコーディング、デコード、モックス、デデマ機能に利用しているマルチメディアアプリケーションは、AIモデルに基づいてビデオコンテンツも分析できるようになった。
プラグインは、特定のFFmpegスレッド制限を克服するためにスレッド最適化されている。
プラグインはバックエンドとしてIntel OpenVINO Toolkit推論エンジンを使用している。
分析ワークロードは、CPU、GPU、FPGA、あるいは特殊な分析アクセラレータなど、さまざまなプラットフォーム上で加速される。
リファレンス実装では、推論バックエンドとしてのOpenVINOの機能はFFmpegのメインストリームリポジトリにプッシュされています。
後でもっとパッチを提出する予定です。
関連論文リスト
- Group-aware Parameter-efficient Updating for Content-Adaptive Neural Video Compression [42.92442233544842]
ビデオ圧縮は時間的冗長性に大きく依存する。
NVCフレームワークは一般的により複雑で、多くの大きなコンポーネントはエンコーディング時に簡単に更新できない。
符号化プロセスの各符号化コンポーネントに、複数の軽量アダプタを統合することで実現されるパラメータ効率のデルタチューニング戦略を導入する。
論文 参考訳(メタデータ) (2024-05-07T12:42:23Z) - Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics [18.042752812489276]
視覚変換器(ViT)を用いたエッジ・ツー・エンドビデオ推論高速化システムを提案する。
その結果、Arenaは平均で1.58(時間)と1.82(時間)の推論速度を向上でき、それぞれ帯域幅の47%と31%しか消費していないことがわかった。
論文 参考訳(メタデータ) (2024-04-14T13:14:13Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - PG-Video-LLaVA: Pixel Grounding Large Video-Language Models [52.83065081926238]
PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり,映像内容の理解を深めるためにテキストに書き起こして音声キューを統合する。
我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
論文 参考訳(メタデータ) (2023-11-22T14:48:30Z) - Spectrum-guided Multi-granularity Referring Video Object Segmentation [56.95836951559529]
現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。
これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。
符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T14:35:25Z) - Learn to Compress (LtC): Efficient Learning-based Streaming Video
Analytics [3.2872586139884623]
LtCは、ビデオソースと分析サーバの協調フレームワークで、分析パイプライン内のビデオストリームの削減を効率的に学習する。
LtCは28~35%の帯域幅を使用でき、最近公開されたアートストリーミングフレームワークと比較して最大45%のレスポンス遅延がある。
論文 参考訳(メタデータ) (2023-07-22T21:36:03Z) - FFNeRV: Flow-Guided Frame-Wise Neural Representations for Videos [5.958701846880935]
ビデオ中のフレーム間の時間的冗長性を利用するために,フロー情報をフレームワイズ表現に組み込む新しい手法であるFFNeRVを提案する。
モデル圧縮技術により、FFNeRVは広く使われている標準ビデオコーデック(H.264とHEVC)より優れ、最先端のビデオ圧縮アルゴリズムと同等に動作する。
論文 参考訳(メタデータ) (2022-12-23T12:51:42Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Efficient video integrity analysis through container characterization [77.45740041478743]
本稿では,ビデオ操作に使用するソフトウェアをコンテナベースで識別する手法を提案する。
提案手法は効率的かつ効果的であり,その決定の簡易な説明も可能である。
プリストインを改ざんされたビデオと区別し、編集ソフトを分類することで97.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-01-26T14:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。