Fugu-MT 論文翻訳(概要): USTC-TD: A Test Dataset and Benchmark for Image and Video Coding in 2020s

論文の概要: USTC-TD: A Test Dataset and Benchmark for Image and Video Coding in 2020s

arxiv url: http://arxiv.org/abs/2409.08481v1
Date: Fri, 13 Sep 2024 02:13:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 18:07:55.051825
Title: USTC-TD: A Test Dataset and Benchmark for Image and Video Coding in 2020s
Title（参考訳）: USTC-TD:2020年代の画像とビデオの符号化のためのテストデータセットとベンチマーク
Authors: Zhuoyuan Li, Junqi Liao, Chuanbo Tang, Haotian Zhang, Yuqi Li, Yifan Bian, Xihua Sheng, Xinmin Feng, Yao Li, Changsheng Gao, Li Li, Dong Liu, Feng Wu,
Abstract要約: 我々はテストデータセットであるUTC-TDを提案し、実際のエンドツーエンドの画像/ビデオ符号化チャレンジでうまく採用されている。 USTC-TDは4K空間解像度で40の画像と1080p空間解像度で10の動画シーケンスを含む。画像/映像の特徴(空間,時間,色,明度)に基づいてUTC-TDを定量的に評価し,以前の画像/ビデオテストデータセットと比較した。
参考スコア（独自算出の注目度）: 38.928918963773256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image/video coding has been a remarkable research area for both academia and industry for many years. Testing datasets, especially high-quality image/video datasets are desirable for the justified evaluation of coding-related research, practical applications, and standardization activities. We put forward a test dataset namely USTC-TD, which has been successfully adopted in the practical end-to-end image/video coding challenge of the IEEE International Conference on Visual Communications and Image Processing in 2022 and 2023. USTC-TD contains 40 images at 4K spatial resolution and 10 video sequences at 1080p spatial resolution, featuring various content due to the diverse environmental factors (scene type, texture, motion, view) and the designed imaging factors (illumination, shadow, lens). We quantitatively evaluate USTC-TD on different image/video features (spatial, temporal, color, lightness), and compare it with the previous image/video test datasets, which verifies the wider coverage and more diversity of the proposed dataset. We also evaluate both classic standardized and recent learned image/video coding schemes on USTC-TD with PSNR and MS-SSIM, and provide an extensive benchmark for the evaluated schemes. Based on the characteristics and specific design of the proposed test dataset, we analyze the benchmark performance and shed light on the future research and development of image/video coding. All the data are released online: https://esakak.github.io/USTC-TD.
Abstract（参考訳）: 画像/ビデオのコーディングは、長年、学界と産業の両方にとって驚くべき研究領域だった。コーディング関連の研究、実践的応用、標準化活動の正当化された評価には、データセット、特に高品質の画像/ビデオデータセットをテストすることが望ましい。我々は,2022年と2023年のIEEE International Conference on Visual Communications and Image Processingにおいて,エンドツーエンドの画像/ビデオコーディングの実践的課題として,USTC-TDというテストデータセットを提唱した。 USTC-TDは4Kの空間解像度で40の画像と1080pの空間解像度で10の動画シーケンスを含んでおり、様々な環境要因(シーンタイプ、テクスチャ、モーション、ビュー)とデザインされた撮像要因(照明、シャドウ、レンズ)によって様々な内容が特徴的である。画像/映像の特徴(空間的,時間的,色,明度)に基づいてUTC-TDを定量的に評価し,提案したデータセットの広範な範囲と多様性を検証した以前の画像/ビデオテストデータセットと比較した。また,PSNR と MS-SSIM を用いた USTC-TD 上での古典的標準化と近年の学習画像/ビデオ符号化方式の評価を行い,評価手法の広範なベンチマークを行った。提案するテストデータセットの特徴と具体的設計に基づいて,ベンチマーク性能を分析し,画像/ビデオ符号化の今後の研究と開発に光を当てる。すべてのデータはオンラインで公開されています。

関連論文リスト

A Multi-Year Urban Streetlight Imagery Dataset for Visual Monitoring and Spatio-Temporal Drift Detection [3.1073458974207124]
英国ブリストルで2021年から2025年にかけて22台の固定角カメラで撮影された都市街灯の大規模で縦方向の視覚的データセットを提示する。データセットには526,000枚以上の画像が含まれており、様々な照明、天気、季節条件の下で1時間に収集されている。この実世界のデータセットは、スマートシティデプロイメントにおける視覚的ドリフト、異常検出、MLOps戦略の詳細な調査を可能にする。
論文参考訳（メタデータ） (2025-12-13T06:28:54Z)
CGVQM+D: Computer Graphics Video Quality Metric and Dataset [4.5660125761127235]
本稿では,高度なレンダリング技術によって導入された歪みに着目した映像品質データセットを提案する。評価の結果,既存の全参照品質指標はこれらの歪みに準最適に作用することがわかった。本稿では,CGVQMを提案する。
論文参考訳（メタデータ） (2025-06-13T07:59:55Z)
CodeSCAN: ScreenCast ANalysis for Video Programming Tutorials [39.58317527488534]
開発中にVisual Studio Code環境から12,000のスクリーンショットを含むCodeSCANデータセットを紹介します。 24のプログラミング言語、25のフォント、90以上の異なるテーマに加えて、レイアウトの変更や現実的なユーザインタラクションも備えている。また,統合開発環境(IDE)要素検出,カラー・ブラック・アンド・ホワイト変換,光学文字認識(OCR)の性能を評価するために,詳細な定量的・質的な評価を行った。
論文参考訳（メタデータ） (2024-09-27T08:53:17Z)
AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results [120.95863275142727]
本稿では,ECCV 2024における画像操作の進歩(AIM)ワークショップと共同で開催されている圧縮映像品質評価の課題について述べる。この課題は、様々な圧縮標準の14コーデックで符号化された459本の動画の多様なデータセット上で、VQA法の性能を評価することであった。
論文参考訳（メタデータ） (2024-08-21T20:32:45Z)
WayveScenes101: A Dataset and Benchmark for Novel View Synthesis in Autonomous Driving [4.911903454560829]
WayveScenes101は、新しいビュー合成において、コミュニティが技術の状態を前進させるのを助けるために設計されたデータセットである。データセットは、幅広い環境条件と運転シナリオにわたる101の運転シーンで構成されている。
論文参考訳（メタデータ） (2024-07-11T08:29:45Z)
BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文参考訳（メタデータ） (2024-07-03T22:41:49Z)
UHD-IQA Benchmark Database: Pushing the Boundaries of Blind Photo Quality Assessment [4.563959812257119]
固定幅3840ピクセルの6073 UHD-1 (4K)画像からなる画像品質評価データセットを提案する。私たちの作品は、高い技術品質の高度に美的な写真に焦点を当てており、文学のギャップを埋めています。データセットには、クラウドソーシング調査を通じて得られた知覚的品質評価が注釈付けされている。
論文参考訳（メタデータ） (2024-06-25T11:30:31Z)
AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文参考訳（メタデータ） (2024-01-03T10:08:40Z)
Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文参考訳（メタデータ） (2023-05-23T07:54:37Z)
Video compression dataset and benchmark of learning-based video-quality metrics [55.41644538483948]
本稿では,ビデオ圧縮の評価を行うビデオ品質指標の新しいベンチマークを提案する。これは、異なる標準でエンコードされた約2,500のストリームからなる、新しいデータセットに基づいている。クラウドソーシングによるペアワイズ比較により,主観的スコアを収集した。
論文参考訳（メタデータ） (2022-11-22T09:22:28Z)
MIPI 2022 Challenge on RGB+ToF Depth Completion: Dataset and Report [92.61915017739895]
本稿では,新しい画像センサと撮像アルゴリズムに着目した5つのトラックを含むMIPIの最初の課題を紹介する。参加者にはTetrasRGBDという,高品質な合成RGB+Depthトレーニングデータ18万組と,混合ソースからの2.3万組のテストデータを含む,新たなデータセットが提供される。最終結果は客観的指標と平均オピニオンスコア(MOS)を主観的に評価する。
論文参考訳（メタデータ） (2022-09-15T05:31:53Z)
Shot boundary detection method based on a new extensive dataset and mixed features [68.8204255655161]
ビデオにおけるショット境界検出は、ビデオデータ処理の重要な段階の1つである。カラーヒストグラムや物体境界などの映像特徴に基づくショット境界検出法が提案されている。
論文参考訳（メタデータ） (2021-09-02T16:19:24Z)
Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文参考訳（メタデータ） (2021-05-14T05:38:13Z)
Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文参考訳（メタデータ） (2020-10-25T10:48:28Z)
PreCNet: Next Frame Video Prediction Based on Predictive Coding [2.41710192205034]
我々はRaoとBallardのモデル(1999年)を現代のディープラーニングフレームワークに変換する。提案するネットワーク(PreCNet)は、広く使われている次のフレームビデオ予測ベンチマークでテストされる。
論文参考訳（メタデータ） (2020-04-30T15:31:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。