Fugu-MT 論文翻訳(概要): Assessing Image Quality Using a Simple Generative Representation

論文の概要: Assessing Image Quality Using a Simple Generative Representation

arxiv url: http://arxiv.org/abs/2404.18178v1
Date: Sun, 28 Apr 2024 13:18:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 17:33:28.881754
Title: Assessing Image Quality Using a Simple Generative Representation
Title（参考訳）: 簡易な生成表現を用いた画質評価
Authors: Simon Raviv, Gal Chechik,
Abstract要約: VAE-QAは、フル参照の存在下で画像品質を予測するためのシンプルで効率的な方法である。提案手法を4つの標準ベンチマークで評価した結果,データセット間の一般化が著しく向上していることが判明した。
参考スコア（独自算出の注目度）: 34.173947968362675
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Perceptual image quality assessment (IQA) is the task of predicting the visual quality of an image as perceived by a human observer. Current state-of-the-art techniques are based on deep representations trained in discriminative manner. Such representations may ignore visually important features, if they are not predictive of class labels. Recent generative models successfully learn low-dimensional representations using auto-encoding and have been argued to preserve better visual features. Here we leverage existing auto-encoders and propose VAE-QA, a simple and efficient method for predicting image quality in the presence of a full-reference. We evaluate our approach on four standard benchmarks and find that it significantly improves generalization across datasets, has fewer trainable parameters, a smaller memory footprint and faster run time.
Abstract（参考訳）: 知覚画像品質評価(IQA)は、人間の観察者によって知覚される画像の視覚的品質を予測するタスクである。現在の最先端技術は、差別的に訓練された深い表現に基づいている。このような表現は、クラスラベルを予測していない場合、視覚的に重要な特徴を無視してもよい。最近の生成モデルは、オートエンコーディングを用いて低次元表現をうまく学習し、より良い視覚的特徴を維持するために議論されてきた。本稿では,既存のオートエンコーダを活用し,完全な参照が存在する場合の画質を簡易かつ効率的に予測する方法であるVAE-QAを提案する。 4つの標準ベンチマークでアプローチを評価し、データセット間の一般化を大幅に改善し、トレーニング可能なパラメータを少なくし、メモリフットプリントを小さくし、実行時間を短縮する。

関連論文リスト

TRIQA: Image Quality Assessment by Contrastive Pretraining on Ordered Distortion Triplets [31.2422359004089]
No-Reference (NR) IQA は参照画像がないため、特に困難である。本稿では,限られた数の参照コンテンツ画像を用いて,カスタムデータセットを構築する新しい手法を提案する。対照的な三重項学習を用いて品質認識モデルを訓練し、より少ないサンプルで効率的なトレーニングを可能にする。
論文参考訳（メタデータ） (2025-07-16T23:43:12Z)
TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-23T17:52:16Z)
Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文参考訳（メタデータ） (2025-03-28T17:59:54Z)
CLIP-DQA: Blindly Evaluating Dehazed Images from Global and Local Perspectives Using CLIP [19.80268944768578]
Blind dehazed Image Quality Assessment (BDQA) は、参照情報なしでデハズド画像の視覚的品質を正確に予測することを目的としている。本稿では,BDQAタスクに対して,大規模画像テキストペア上で事前学習したコントラスト言語画像事前学習(CLIP)を適用することを提案する。提案手法はCLIP-DQAと呼ばれ,既存のBDQA手法よりも高精度な品質予測を実現する。
論文参考訳（メタデータ） (2025-02-03T14:12:25Z)
Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。野生における画像品質評価(DepictQA-Wild)について紹介する。本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文参考訳（メタデータ） (2024-05-29T07:49:15Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Learning Generalizable Perceptual Representations for Data-Efficient No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文参考訳（メタデータ） (2023-12-08T05:24:21Z)
X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation with Visual Large Language Models [17.67105465600566]
本稿では,X-IQEと呼ばれる新しい画像品質評価手法を提案する。 X-IQEは、視覚的大言語モデル(LLM)を使用して、テキストによる説明を生成することによって、テキストから画像への生成方法を評価する。実際の画像と生成された画像を区別し、テキスト画像のアライメントを評価し、モデルトレーニングや微調整を必要とせずに画像の美学を評価する機能など、いくつかの利点がある。
論文参考訳（メタデータ） (2023-05-18T09:56:44Z)
Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文参考訳（メタデータ） (2022-07-25T17:58:16Z)
Conformer and Blind Noisy Students for Improved Image Quality Assessment [80.57006406834466]
知覚品質評価(IQA)のための学習ベースアプローチは、通常、知覚品質を正確に測定するために歪んだ画像と参照画像の両方を必要とする。本研究では,変換器を用いた全参照IQAモデルの性能について検討する。また,全教師モデルから盲人学生モデルへの半教師付き知識蒸留に基づくIQAの手法を提案する。
論文参考訳（メタデータ） (2022-04-27T10:21:08Z)
Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文参考訳（メタデータ） (2021-10-25T21:01:00Z)
Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。 DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文参考訳（メタデータ） (2021-08-18T02:35:08Z)
Inducing Predictive Uncertainty Estimation for Face Recognition [102.58180557181643]
顔画像の「マッドペア」から画像品質訓練データを自動的に生成する手法を提案する。生成したデータを用いて、顔画像の信頼度を推定するために、PCNetと呼ばれる軽量な予測信頼ネットワークを訓練する。
論文参考訳（メタデータ） (2020-09-01T17:52:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。