論文の概要: A strong baseline for image and video quality assessment
- arxiv url: http://arxiv.org/abs/2111.07104v1
- Date: Sat, 13 Nov 2021 12:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 14:55:13.339586
- Title: A strong baseline for image and video quality assessment
- Title(参考訳): 画像・映像品質評価のための強固なベースライン
- Authors: Shaoguo Wen, Junle Wang
- Abstract要約: 画像と映像の知覚的品質評価のための,シンプルで効果的な統合モデルを提案する。
本モデルでは,バックボーンネットワークから派生したグローバルな特徴を1つだけ適用することで,同等の性能を実現する。
提案したアーキテクチャに基づいて、3つの一般的な実世界のシナリオに対して十分に訓練されたモデルをリリースする。
- 参考スコア(独自算出の注目度): 4.73466728067544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a simple yet effective unified model for perceptual
quality assessment of image and video. In contrast to existing models which
usually consist of complex network architecture, or rely on the concatenation
of multiple branches of features, our model achieves a comparable performance
by applying only one global feature derived from a backbone network (i.e.
resnet18 in the presented work). Combined with some training tricks, the
proposed model surpasses the current baselines of SOTA models on public and
private datasets. Based on the architecture proposed, we release the models
well trained for three common real-world scenarios: UGC videos in the wild, PGC
videos with compression, Game videos with compression. These three pre-trained
models can be directly applied for quality assessment, or be further fine-tuned
for more customized usages. All the code, SDK, and the pre-trained weights of
the proposed models are publicly available at
https://github.com/Tencent/CenseoQoE.
- Abstract(参考訳): 本稿では,画像と映像の知覚的品質評価のための簡易かつ効果的な統一モデルを提案する。
通常、複雑なネットワークアーキテクチャで構成されたり、複数の機能ブランチの連結に依存する既存のモデルとは対照的に、我々のモデルはバックボーンネットワーク(resnet18)から派生した1つのグローバル機能のみを適用することで、同等のパフォーマンスを達成する。
いくつかのトレーニングトリックと組み合わせて、提案されたモデルは、パブリックデータセットとプライベートデータセットのSOTAモデルの現在のベースラインを超えている。
提案したアーキテクチャに基づいて,UGCビデオの野生化,圧縮を伴うPGCビデオの圧縮,圧縮を伴うゲームビデオの3つの一般的な現実シナリオに対して,十分に訓練されたモデルをリリースする。
これら3つの事前訓練されたモデルは、品質評価に直接適用したり、よりカスタマイズされた使用のためにさらに微調整することができる。
提案されたモデルのコード、SDK、および事前トレーニングされた重み付けはすべて、https://github.com/Tencent/CenseoQoEで公開されている。
関連論文リスト
- VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - VideoGPT: Video Generation using VQ-VAE and Transformers [75.20543171520565]
VideoGGは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。
VideoGはVQ-Eを用いて、3D畳み込みと軸自己アテンションを用いて、離散的潜伏表現を学習する。
我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
論文 参考訳(メタデータ) (2021-04-20T17:58:03Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Learning Generative Models of Textured 3D Meshes from Real-World Images [26.353307246909417]
このようなアノテーションを使わずに,テクスチャ付きトライアングルメッシュを生成するganフレームワークを提案する。
我々のアプローチのパフォーマンスは、基礎となるキーポイントに依存する以前の作業と同等であることを示します。
論文 参考訳(メタデータ) (2021-03-29T14:07:37Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。