論文の概要: LSCD: A Large-Scale Screen Content Dataset for Video Compression
- arxiv url: http://arxiv.org/abs/2308.09332v1
- Date: Fri, 18 Aug 2023 06:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:15:22.541434
- Title: LSCD: A Large-Scale Screen Content Dataset for Video Compression
- Title(参考訳): LSCD:ビデオ圧縮のための大規模画面コンテンツデータセット
- Authors: Yuhao Cheng, Siru Zhang, Yiqiang Yan, Rong Chen, Yun Zhang
- Abstract要約: 714のソースシーケンスを含む大規模画面コンテンツデータセットを提案する。
本稿では,スクリーンコンテンツビデオの特徴を示すために提案したデータセットの分析を行う。
また、従来の手法と学習法の両方のパフォーマンスを含むベンチマークも提供する。
- 参考スコア(独自算出の注目度): 5.857003653854907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia compression allows us to watch videos, see pictures and hear
sounds within a limited bandwidth, which helps the flourish of the internet.
During the past decades, multimedia compression has achieved great success
using hand-craft features and systems. With the development of artificial
intelligence and video compression, there emerges a lot of research work
related to using the neural network on the video compression task to get rid of
the complicated system. Not only producing the advanced algorithms, but
researchers also spread the compression to different content, such as User
Generated Content(UGC). With the rapid development of mobile devices, screen
content videos become an important part of multimedia data. In contrast, we
find community lacks a large-scale dataset for screen content video
compression, which impedes the fast development of the corresponding
learning-based algorithms. In order to fulfill this blank and accelerate the
research of this special type of videos, we propose the Large-scale Screen
Content Dataset(LSCD), which contains 714 source sequences. Meanwhile, we
provide the analysis of the proposed dataset to show some features of screen
content videos, which will help researchers have a better understanding of how
to explore new algorithms. Besides collecting and post-processing the data to
organize the dataset, we also provide a benchmark containing the performance of
both traditional codec and learning-based methods.
- Abstract(参考訳): マルチメディア圧縮により、ビデオを見たり、写真を見たり、限られた帯域内で音を聞いたりすることができます。
過去数十年間、マルチメディア圧縮はハンドクラフト機能とシステムを使って大きな成功を収めてきた。
人工知能とビデオ圧縮の開発により、複雑なシステムを除去するためにビデオ圧縮タスクにニューラルネットワークを使用することに関する多くの研究が生まれている。
高度なアルゴリズムを生成するだけでなく、研究者は圧縮をユーザ生成コンテンツ(UGC)など、さまざまなコンテンツに広めた。
モバイルデバイスの急速な発展に伴い、スクリーンコンテンツビデオはマルチメディアデータの重要な部分となった。
対照的に、コミュニティにはスクリーンコンテンツ圧縮のための大規模なデータセットが欠けているため、学習ベースのアルゴリズムの急速な開発を妨げている。
この空白を達成し、この特殊なタイプのビデオの研究を加速するために、714のソースシーケンスを含む大規模画面コンテンツデータセット(LSCD)を提案する。
一方で,提案するデータセットの分析により,画面コンテンツビデオの特徴を提示することで,新たなアルゴリズムの探索方法に関する研究者の理解を深める。
データセットを整理するためのデータ収集と後処理に加えて,従来のコーデックと学習ベースの両方のパフォーマンスを含むベンチマークも提供する。
関連論文リスト
- BVI-CR: A Multi-View Human Dataset for Volumetric Video Compression [14.109939177281069]
BVI-CRは18のマルチビューRGB-Dキャプチャとそれに対応するテクスチャ化された多角形メッシュを含んでいる。
各ビデオシーケンスは、30FPSで10~15秒間の1080p解像度で10ビューを含む。
その結果、ボリュームビデオ圧縮におけるニューラル表現に基づく手法の大きな可能性を示した。
論文 参考訳(メタデータ) (2024-11-17T23:22:48Z) - DMVC: Multi-Camera Video Compression Network aimed at Improving Deep Learning Accuracy [22.871591373774802]
ユビキタスビデオデータの時代に適した最先端のビデオ圧縮フレームワークを提案する。
人間の視覚知覚を優先する従来の圧縮手法とは異なり、我々の革新的なアプローチは、深層学習の精度に重要な意味情報の保存に重点を置いている。
設計されたディープラーニングアルゴリズムに基づいて、冗長性から必然的に重要な情報を分離し、機械学習タスクに最も関連性の高いデータの供給を確実にする。
論文 参考訳(メタデータ) (2024-10-24T03:29:57Z) - Learned Compression for Images and Point Clouds [1.7404865362620803]
この論文は、この新しい学習圧縮分野への3つの主要な貢献を提供する。
まず、符号化分布自体を側情報として圧縮送信することで、符号化分布を特定の入力に動的に適応する効率的な低複雑さエントロピーモデルを提案する。
第2に,非特殊化コーデックに比べて著しく低減された,分類に高度に特化している軽量低複雑点雲を提案する。
論文 参考訳(メタデータ) (2024-09-12T19:57:44Z) - EasyVolcap: Accelerating Neural Volumetric Video Research [69.59671164891725]
ボリュームビデオは、芸術的パフォーマンス、スポーツイベント、リモート会話などの動的イベントをデジタル的に記録する技術である。
EasyVolcapはPythonとPytorchのライブラリで、マルチビューデータ処理、4Dシーン再構成、効率的なダイナミックボリュームビデオレンダリングのプロセスを統一する。
論文 参考訳(メタデータ) (2023-12-11T17:59:46Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval [16.548016892117083]
近年,テキストビデオ検索手法が注目されている。
データ拡張技術は、目に見えないテスト例のパフォーマンスを向上させるために導入された。
特徴空間で機能し,意味的に類似したサンプルを混合して新しいビデオやキャプションを生成するマルチモーダルデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T14:05:20Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。