Fugu-MT 論文翻訳(概要): PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild

論文の概要: PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild

arxiv url: http://arxiv.org/abs/2405.17765v1
Date: Tue, 28 May 2024 02:37:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 22:32:09.597716
Title: PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild
Title（参考訳）: PTM-VQA:野生の多様な事前学習モデルを活用した高能率映像品質評価
Authors: Kun Yuan, Hongbo Liu, Mading Li, Muyi Sun, Ming Sun, Jiachao Gong, Jinhua Hao, Chao Zhou, Yansong Tang,
Abstract要約: 映像品質評価(VQA)は、映像の知覚品質に影響を与える多くの要因により難しい問題である。ビデオに対する平均評価スコア(MOS)の注釈付けは高価で時間を要するため、VQAデータセットのスケールが制限される。 PTM-VQAと呼ばれるVQA手法を提案し、PreTrained Modelsを利用して、様々な事前タスクで事前訓練されたモデルから知識を伝達する。
参考スコア（独自算出の注目度）: 27.195339506769457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video quality assessment (VQA) is a challenging problem due to the numerous factors that can affect the perceptual quality of a video, \eg, content attractiveness, distortion type, motion pattern, and level. However, annotating the Mean opinion score (MOS) for videos is expensive and time-consuming, which limits the scale of VQA datasets, and poses a significant obstacle for deep learning-based methods. In this paper, we propose a VQA method named PTM-VQA, which leverages PreTrained Models to transfer knowledge from models pretrained on various pre-tasks, enabling benefits for VQA from different aspects. Specifically, we extract features of videos from different pretrained models with frozen weights and integrate them to generate representation. Since these models possess various fields of knowledge and are often trained with labels irrelevant to quality, we propose an Intra-Consistency and Inter-Divisibility (ICID) loss to impose constraints on features extracted by multiple pretrained models. The intra-consistency constraint ensures that features extracted by different pretrained models are in the same unified quality-aware latent space, while the inter-divisibility introduces pseudo clusters based on the annotation of samples and tries to separate features of samples from different clusters. Furthermore, with a constantly growing number of pretrained models, it is crucial to determine which models to use and how to use them. To address this problem, we propose an efficient scheme to select suitable candidates. Models with better clustering performance on VQA datasets are chosen to be our candidates. Extensive experiments demonstrate the effectiveness of the proposed method.
Abstract（参考訳）: 映像品質評価(VQA)は,映像の知覚的品質,字幕,コンテンツ魅力,歪みタイプ,動きパターン,レベルに影響を及ぼす要因が多々あるため,難しい問題である。しかしながら、ビデオに対する平均評価スコア(MOS)の注釈付けは高価で時間を要するため、VQAデータセットの規模が制限され、ディープラーニングベースの手法では大きな障害となる。本稿では,PTM-VQAと呼ばれるVQA手法を提案する。PTM-VQAはPreTrained Modelsを利用して,様々な事前タスクで事前訓練されたモデルから知識を伝達し,異なる側面からVQAの利点を実現する。具体的には、凍結重量の異なる事前学習モデルからビデオの特徴を抽出し、それらを統合して表現を生成する。これらのモデルには様々な知識分野があり、品質に関係のないラベルで訓練されることが多いため、複数の事前学習モデルによって抽出された特徴に制約を課すために、ICID(Intra-Consistency and Inter-Divisibility)損失を提案する。一貫性内制約は、異なる事前訓練されたモデルによって抽出された特徴が、同一の品質を意識した潜伏空間にあることを保証し、一方、識別性はサンプルのアノテーションに基づいて擬似クラスタを導入し、異なるクラスタからサンプルの特徴を分離しようとする。さらに、常に事前訓練されたモデルの数が増えているため、どのモデルを使うか、どのように使用するかを決定することが不可欠である。この問題に対処するために,適切な候補を選択するための効率的なスキームを提案する。 VQAデータセットのクラスタリング性能が向上したモデルが候補に選ばれます。大規模実験により提案手法の有効性が示された。

関連論文リスト

CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video [9.172799792564009]
本稿では,大規模モデルの意味理解機能を活用した新しいNR-VQAフレームワークであるCAMP-VQAを提案する。本手法では,フレーム間変動から抽出したキーフラグメントを統合する品質対応ビデオメタデータ機構を提案する。我々のモデルは既存のNR-VQA法を一貫して上回り、手作業の細かいアノテーションを使わずに精度の向上を実現している。
論文参考訳（メタデータ） (2025-11-10T16:37:47Z)
Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-05-06T15:29:32Z)
Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文参考訳（メタデータ） (2024-05-29T06:09:34Z)
Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-14T16:32:11Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Ada-DQA: Adaptive Diverse Quality-aware Feature Acquisition for Video Quality Assessment [25.5501280406614]
近年,映像品質評価 (VQA) が注目されている。大規模VQAデータセットのアノテートに大きな費用が、現在のディープラーニング手法の主な障害となっている。 Ada-DQA(Adaptive Diverse Quality-Aware Feature Acquisition)フレームワークは、望ましい品質関連の特徴を捉えるために提案されている。
論文参考訳（メタデータ） (2023-08-01T16:04:42Z)
Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文参考訳（メタデータ） (2023-07-26T06:38:33Z)
CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文参考訳（メタデータ） (2022-06-29T15:22:01Z)
A Deep Learning based No-reference Quality Assessment Model for UGC Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文参考訳（メタデータ） (2022-04-29T12:45:21Z)
Unified Quality Assessment of In-the-Wild Videos with Mixed Datasets Training [20.288424566444224]
我々は、コンピュータビジョンアプリケーションにおいて、Wildビデオの品質を自動評価することに注力する。品質評価モデルの性能向上のために,人間の知覚から直観を借りる。複数のデータセットで単一のVQAモデルをトレーニングするための混合データセットトレーニング戦略を提案する。
論文参考訳（メタデータ） (2020-11-09T09:22:57Z)
Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。 CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。 VQA-CP v2では58.95%,6.5%向上した。
論文参考訳（メタデータ） (2020-03-14T08:34:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。