論文の概要: Recent Standard Development Activities on Video Coding for Machines
- arxiv url: http://arxiv.org/abs/2105.12653v1
- Date: Wed, 26 May 2021 16:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:27:15.789060
- Title: Recent Standard Development Activities on Video Coding for Machines
- Title(参考訳): 機械の映像符号化に関する最近の標準開発動向
- Authors: Wen Gao, Shan Liu, Xiaozhong Xu, Manouchehr Rafie, Yuan Zhang, Igor
Curcio
- Abstract要約: 近年、ビデオデータはインターネットトラフィックを支配しており、主要なデータフォーマットの1つになっている。
新興の5Gとモノのインターネット(IoT)技術により、エッジデバイスによって生成され、ネットワークを介して送信され、マシンによって消費されるビデオが増えています。
機械が消費するビデオの量は、人間が消費するビデオの量を超える。
2019年7月、国際標準化機構(MPEG)は、VCMというアドホックグループを設立し、標準化作業の潜在的な要件について研究した。
- 参考スコア(独自算出の注目度): 55.60532507033334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, video data has dominated internet traffic and becomes one of
the major data formats. With the emerging 5G and internet of things (IoT)
technologies, more and more videos are generated by edge devices, sent across
networks, and consumed by machines. The volume of video consumed by machine is
exceeding the volume of video consumed by humans. Machine vision tasks include
object detection, segmentation, tracking, and other machine-based applications,
which are quite different from those for human consumption. On the other hand,
due to large volumes of video data, it is essential to compress video before
transmission. Thus, efficient video coding for machines (VCM) has become an
important topic in academia and industry. In July 2019, the international
standardization organization, i.e., MPEG, created an Ad-Hoc group named VCM to
study the requirements for potential standardization work. In this paper, we
will address the recent development activities in the MPEG VCM group.
Specifically, we will first provide an overview of the MPEG VCM group including
use cases, requirements, processing pipelines, plan for potential VCM
standards, followed by the evaluation framework including machine-vision tasks,
dataset, evaluation metrics, and anchor generation. We then introduce
technology solutions proposed so far and discuss the recent responses to the
Call for Evidence issued by MPEG VCM group.
- Abstract(参考訳): 近年、ビデオデータはインターネットトラフィックを支配し、主要なデータフォーマットの1つとなっている。
新興の5Gとモノのインターネット(IoT)技術により、エッジデバイスによって生成されるビデオが増え、ネットワークを介して送信され、マシンによって消費される。
機械が消費するビデオの量は、人間が消費するビデオの量を超える。
マシンビジョンタスクには、オブジェクトの検出、セグメンテーション、トラッキング、その他のマシンベースのアプリケーションが含まれる。
一方,映像データの量が多いため,伝送前に映像を圧縮することが不可欠である。
このように、機械の効率的なビデオ符号化(VCM)は、学術や産業において重要なトピックとなっている。
2019年7月、国際標準化機構(MPEG)は、VCMというアドホックグループを設立し、標準化作業の潜在的な要件について研究した。
本稿では,MPEG VCMグループにおける最近の開発活動について述べる。
具体的には、まずユースケース、要件、処理パイプライン、潜在的なVCM標準の計画、続いて、マシンビジョンタスク、データセット、評価メトリクス、アンカー生成を含む評価フレームワークについて、MPEG VCMグループの概要を紹介する。
本稿では,MPEG VCMグループによって発行されたCall for Evidenceに対する最近の対応について述べる。
関連論文リスト
- How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - NN-VVC: Versatile Video Coding boosted by self-supervisedly learned
image coding for machines [19.183883119933558]
本稿では, NN-VVC という, E2E 学習画像と CVC の利点を組み合わせて, 画像符号化と映像符号化の両面において高い性能を実現するマシン用ハイブリッドを提案する。
実験の結果,提案システムは画像データとビデオデータのVVCよりも最大で-43.20%,-26.8%のBjontegaard Deltaレート低下を達成した。
論文 参考訳(メタデータ) (2024-01-19T15:33:46Z) - PG-Video-LLaVA: Pixel Grounding Large Video-Language Models [52.83065081926238]
PG-Video-LLaVA は画素レベルのグラウンド機能を持つ最初の LMM であり,映像内容の理解を深めるためにテキストに書き起こして音声キューを統合する。
我々のフレームワークは、SoTAイメージベースのLLaVAモデルに基づいており、その利点をビデオ領域に拡張し、ビデオベースの会話と接地タスクに有望な利益をもたらす。
論文 参考訳(メタデータ) (2023-11-22T14:48:30Z) - Retargeting video with an end-to-end framework [14.270721529264929]
本稿では,動画を任意の比率に再ターゲティングするためのエンドツーエンドのRETVI手法を提案する。
私たちのシステムは、以前よりも品質と実行時間で優れています。
論文 参考訳(メタデータ) (2023-11-08T04:56:41Z) - Video compression dataset and benchmark of learning-based video-quality
metrics [55.41644538483948]
本稿では,ビデオ圧縮の評価を行うビデオ品質指標の新しいベンチマークを提案する。
これは、異なる標準でエンコードされた約2,500のストリームからなる、新しいデータセットに基づいている。
クラウドソーシングによるペアワイズ比較により,主観的スコアを収集した。
論文 参考訳(メタデータ) (2022-11-22T09:22:28Z) - Scalable Video Coding for Humans and Machines [42.870358996305356]
本稿では,ベース層ビットストリームによるマシンビジョンと,拡張層ビットストリームによるヒューマンビジョンをサポートするスケーラブルなビデオコーディングフレームワークを提案する。
提案するフレームワークには,従来型とディープニューラルネットワーク(DNN)ベースのビデオ符号化の両方のコンポーネントが含まれている。
論文 参考訳(メタデータ) (2022-08-04T07:45:41Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。