論文の概要: Learning with Noisy Low-Cost MOS for Image Quality Assessment via
Dual-Bias Calibration
- arxiv url: http://arxiv.org/abs/2311.15846v1
- Date: Mon, 27 Nov 2023 14:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:06:48.085651
- Title: Learning with Noisy Low-Cost MOS for Image Quality Assessment via
Dual-Bias Calibration
- Title(参考訳): デュアルバイアス校正による画質評価のための低騒音mosによる学習
- Authors: Lei Wang, Qingbo Wu, Desen Yuan, King Ngi Ngan, Hongliang Li, Fanman
Meng, and Linfeng Xu
- Abstract要約: 個々のアノテータの主観的バイアスを考慮すると、労働基準平均アノテータスコア(LA-MOS)は、通常、画像ごとに複数のアノテータから多数のアノテータのアノテータのアノテータのアノテータのアノテータスコアを収集する必要がある。
本稿では,低コストのMOSから頑健なIQAモデルを学習することを目的としている。
我々の知る限りでは、これはノイズの多い低コストラベルからの堅牢なIQAモデル学習の最初の調査である。
- 参考スコア(独自算出の注目度): 20.671990508960906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning based image quality assessment (IQA) models have obtained impressive
performance with the help of reliable subjective quality labels, where mean
opinion score (MOS) is the most popular choice. However, in view of the
subjective bias of individual annotators, the labor-abundant MOS (LA-MOS)
typically requires a large collection of opinion scores from multiple
annotators for each image, which significantly increases the learning cost. In
this paper, we aim to learn robust IQA models from low-cost MOS (LC-MOS), which
only requires very few opinion scores or even a single opinion score for each
image. More specifically, we consider the LC-MOS as the noisy observation of
LA-MOS and enforce the IQA model learned from LC-MOS to approach the unbiased
estimation of LA-MOS. In this way, we represent the subjective bias between
LC-MOS and LA-MOS, and the model bias between IQA predictions learned from
LC-MOS and LA-MOS (i.e., dual-bias) as two latent variables with unknown
parameters. By means of the expectation-maximization based alternating
optimization, we can jointly estimate the parameters of the dual-bias, which
suppresses the misleading of LC-MOS via a gated dual-bias calibration (GDBC)
module. To the best of our knowledge, this is the first exploration of robust
IQA model learning from noisy low-cost labels. Theoretical analysis and
extensive experiments on four popular IQA datasets show that the proposed
method is robust toward different bias rates and annotation numbers and
significantly outperforms the other learning based IQA models when only LC-MOS
is available. Furthermore, we also achieve comparable performance with respect
to the other models learned with LA-MOS.
- Abstract(参考訳): 学習に基づく画像品質評価(IQA)モデルは、平均評価スコア(MOS)が最も一般的な選択肢である信頼性の高い主観的品質ラベルの助けを借りて、印象的なパフォーマンスを得た。
しかしながら、個々のアノテータの主観的バイアスを考慮すると、労働環境に配慮したMOS(LA-MOS)は、通常、各画像に対する複数のアノテータからの意見スコアの収集を必要とし、学習コストを大幅に増加させる。
本稿では,低コストMOS (LC-MOS) からロバストIQAモデルを学習することを目的とした。
具体的には、LC-MOSをLA-MOSのノイズ観測とみなし、LC-MOSから学んだIQAモデルを適用し、LA-MOSのバイアスのない推定にアプローチする。
このようにして、LC-MOSとLA-MOSの主観バイアスと、LC-MOSとLA-MOS(二重バイアス)から得られたIQA予測のモデルバイアスを、未知のパラメータを持つ2つの潜在変数として表現する。
予測最大化に基づく交互最適化により、二バイアスのパラメータを共同で推定し、二バイアスキャリブレーション(GDBC)モジュールによるLC-MOSの誤解を抑えることができる。
我々の知る限りでは、これはノイズの多い低コストラベルからの堅牢なIQAモデル学習の最初の調査である。
4つの一般的なIQAデータセットに関する理論的解析と広範な実験により、提案手法は異なるバイアス率とアノテーション数に対して頑健であり、LC-MOSのみが利用できる場合、他の学習ベースIQAモデルよりも大幅に優れていることが示された。
さらに,la-mosで学習した他のモデルと同等の性能を実現する。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Perceptual Constancy Constrained Single Opinion Score Calibration for Image Quality Assessment [2.290956583394892]
画像の平均世論スコア(MOS)を1つの世論スコア(SOS)から推定する高効率な手法を提案する。
実験の結果,提案手法は偏りのあるSOSの校正に有効であり,SOSのみが利用できる場合のIQAモデル学習を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2024-04-30T14:42:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - MOSPC: MOS Prediction Based on Pairwise Comparison [32.55704173124071]
MOS(Mean opinion score)は、合成音声の品質を評価する主観的尺度である。
ペア比較(MOSPC)に基づくMOS予測のための一般的なフレームワークを提案する。
筆者らのフレームワークは,各きめ細かなセグメントのランキング精度において,強いベースラインを超えている。
論文 参考訳(メタデータ) (2023-06-18T07:38:17Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Speech MOS multi-task learning and rater bias correction [10.123346550775471]
平均意見スコア(MOS)は、音声品質の知覚的評価のために標準化され、聞き手に音声サンプルの品質を評価させる。
本稿では,視覚的MOS推定モデルの性能向上のために,学習中にラベルやデータを追加するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-04T20:06:27Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Conformer and Blind Noisy Students for Improved Image Quality Assessment [80.57006406834466]
知覚品質評価(IQA)のための学習ベースアプローチは、通常、知覚品質を正確に測定するために歪んだ画像と参照画像の両方を必要とする。
本研究では,変換器を用いた全参照IQAモデルの性能について検討する。
また,全教師モデルから盲人学生モデルへの半教師付き知識蒸留に基づくIQAの手法を提案する。
論文 参考訳(メタデータ) (2022-04-27T10:21:08Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning
With Spoofing Detection and Spoofing Type Classification [16.43844160498413]
MOS予測モデルの性能向上のためのマルチタスク学習(MTL)手法を提案する。
Voice Conversion Challenge 2018を使った実験では、2つの補助タスクを備えたMTLの提案がMOS予測を改善することが示されている。
論文 参考訳(メタデータ) (2020-07-16T11:38:08Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。