論文の概要: USTC-TD: A Test Dataset and Benchmark for Image and Video Coding in 2020s
- arxiv url: http://arxiv.org/abs/2409.08481v1
- Date: Fri, 13 Sep 2024 02:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 18:07:55.051825
- Title: USTC-TD: A Test Dataset and Benchmark for Image and Video Coding in 2020s
- Title(参考訳): USTC-TD:2020年代の画像とビデオの符号化のためのテストデータセットとベンチマーク
- Authors: Zhuoyuan Li, Junqi Liao, Chuanbo Tang, Haotian Zhang, Yuqi Li, Yifan Bian, Xihua Sheng, Xinmin Feng, Yao Li, Changsheng Gao, Li Li, Dong Liu, Feng Wu,
- Abstract要約: 我々はテストデータセットであるUTC-TDを提案し、実際のエンドツーエンドの画像/ビデオ符号化チャレンジでうまく採用されている。
USTC-TDは4K空間解像度で40の画像と1080p空間解像度で10の動画シーケンスを含む。
画像/映像の特徴(空間,時間,色,明度)に基づいてUTC-TDを定量的に評価し,以前の画像/ビデオテストデータセットと比較した。
- 参考スコア(独自算出の注目度): 38.928918963773256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image/video coding has been a remarkable research area for both academia and industry for many years. Testing datasets, especially high-quality image/video datasets are desirable for the justified evaluation of coding-related research, practical applications, and standardization activities. We put forward a test dataset namely USTC-TD, which has been successfully adopted in the practical end-to-end image/video coding challenge of the IEEE International Conference on Visual Communications and Image Processing in 2022 and 2023. USTC-TD contains 40 images at 4K spatial resolution and 10 video sequences at 1080p spatial resolution, featuring various content due to the diverse environmental factors (scene type, texture, motion, view) and the designed imaging factors (illumination, shadow, lens). We quantitatively evaluate USTC-TD on different image/video features (spatial, temporal, color, lightness), and compare it with the previous image/video test datasets, which verifies the wider coverage and more diversity of the proposed dataset. We also evaluate both classic standardized and recent learned image/video coding schemes on USTC-TD with PSNR and MS-SSIM, and provide an extensive benchmark for the evaluated schemes. Based on the characteristics and specific design of the proposed test dataset, we analyze the benchmark performance and shed light on the future research and development of image/video coding. All the data are released online: https://esakak.github.io/USTC-TD.
- Abstract(参考訳): 画像/ビデオのコーディングは、長年、学界と産業の両方にとって驚くべき研究領域だった。
コーディング関連の研究、実践的応用、標準化活動の正当化された評価には、データセット、特に高品質の画像/ビデオデータセットをテストすることが望ましい。
我々は,2022年と2023年のIEEE International Conference on Visual Communications and Image Processingにおいて,エンドツーエンドの画像/ビデオコーディングの実践的課題として,USTC-TDというテストデータセットを提唱した。
USTC-TDは4Kの空間解像度で40の画像と1080pの空間解像度で10の動画シーケンスを含んでおり、様々な環境要因(シーンタイプ、テクスチャ、モーション、ビュー)とデザインされた撮像要因(照明、シャドウ、レンズ)によって様々な内容が特徴的である。
画像/映像の特徴(空間的,時間的,色,明度)に基づいてUTC-TDを定量的に評価し,提案したデータセットの広範な範囲と多様性を検証した以前の画像/ビデオテストデータセットと比較した。
また,PSNR と MS-SSIM を用いた USTC-TD 上での古典的標準化と近年の学習画像/ビデオ符号化方式の評価を行い,評価手法の広範なベンチマークを行った。
提案するテストデータセットの特徴と具体的設計に基づいて,ベンチマーク性能を分析し,画像/ビデオ符号化の今後の研究と開発に光を当てる。
すべてのデータはオンラインで公開されています。
関連論文リスト
- CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials [39.58317527488534]
開発中にVisual Studio Code環境から12,000のスクリーンショットを含むCodeSCANデータセットを紹介します。
24のプログラミング言語、25のフォント、90以上の異なるテーマに加えて、レイアウトの変更や現実的なユーザインタラクションも備えている。
また,統合開発環境(IDE)要素検出,カラー・ブラック・アンド・ホワイト変換,光学文字認識(OCR)の性能を評価するために,詳細な定量的・質的な評価を行った。
論文 参考訳(メタデータ) (2024-09-27T08:53:17Z) - WayveScenes101: A Dataset and Benchmark for Novel View Synthesis in Autonomous Driving [4.911903454560829]
WayveScenes101は、新しいビュー合成において、コミュニティが技術の状態を前進させるのを助けるために設計されたデータセットである。
データセットは、幅広い環境条件と運転シナリオにわたる101の運転シーンで構成されている。
論文 参考訳(メタデータ) (2024-07-11T08:29:45Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文 参考訳(メタデータ) (2024-01-03T10:08:40Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Video compression dataset and benchmark of learning-based video-quality
metrics [55.41644538483948]
本稿では,ビデオ圧縮の評価を行うビデオ品質指標の新しいベンチマークを提案する。
これは、異なる標準でエンコードされた約2,500のストリームからなる、新しいデータセットに基づいている。
クラウドソーシングによるペアワイズ比較により,主観的スコアを収集した。
論文 参考訳(メタデータ) (2022-11-22T09:22:28Z) - MIPI 2022 Challenge on RGB+ToF Depth Completion: Dataset and Report [92.61915017739895]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含むMIPIの最初の課題を紹介する。
参加者にはTetrasRGBDという,高品質な合成RGB+Depthトレーニングデータ18万組と,混合ソースからの2.3万組のテストデータを含む,新たなデータセットが提供される。
最終結果は客観的指標と平均オピニオンスコア(MOS)を主観的に評価する。
論文 参考訳(メタデータ) (2022-09-15T05:31:53Z) - Shot boundary detection method based on a new extensive dataset and
mixed features [68.8204255655161]
ビデオにおけるショット境界検出は、ビデオデータ処理の重要な段階の1つである。
カラーヒストグラムや物体境界などの映像特徴に基づくショット境界検出法が提案されている。
論文 参考訳(メタデータ) (2021-09-02T16:19:24Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z) - PreCNet: Next Frame Video Prediction Based on Predictive Coding [2.41710192205034]
我々はRaoとBallardのモデル(1999年)を現代のディープラーニングフレームワークに変換する。
提案するネットワーク(PreCNet)は、広く使われている次のフレームビデオ予測ベンチマークでテストされる。
論文 参考訳(メタデータ) (2020-04-30T15:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。