論文の概要: Appeal prediction for AI up-scaled Images
- arxiv url: http://arxiv.org/abs/2502.14013v1
- Date: Wed, 19 Feb 2025 13:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:00.180620
- Title: Appeal prediction for AI up-scaled Images
- Title(参考訳): AIによるアップスケール画像の魅力予測
- Authors: Steve Göring, Rasmus Merten, Alexander Raake,
- Abstract要約: 136のベースイメージと5つの異なるアップスケーリング手法を用いて構築したデータセットについて述べる。
その結果,Real-ESRGANとBSRGANが最適であることが示唆された。
これに加えて,最先端画像の魅力と品質モデルの評価を行ったが,どのモデルも高い予測性能を示しなかった。
- 参考スコア(独自算出の注目度): 45.61706071739717
- License:
- Abstract: DNN- or AI-based up-scaling algorithms are gaining in popularity due to the improvements in machine learning. Various up-scaling models using CNNs, GANs or mixed approaches have been published. The majority of models are evaluated using PSRN and SSIM or only a few example images. However, a performance evaluation with a wide range of real-world images and subjective evaluation is missing, which we tackle in the following paper. For this reason, we describe our developed dataset, which uses 136 base images and five different up-scaling methods, namely Real-ESRGAN, BSRGAN, waifu2x, KXNet, and Lanczos. Overall the dataset consists of 1496 annotated images. The labeling of our dataset focused on image appeal and has been performed using crowd-sourcing employing our open-source tool AVRate Voyager. We evaluate the appeal of the different methods, and the results indicate that Real-ESRGAN and BSRGAN are the best. Furthermore, we train a DNN to detect which up-scaling method has been used, the trained models have a good overall performance in our evaluation. In addition to this, we evaluate state-of-the-art image appeal and quality models, here none of the models showed a high prediction performance, therefore we also trained two own approaches. The first uses transfer learning and has the best performance, and the second model uses signal-based features and a random forest model with good overall performance. We share the data and implementation to allow further research in the context of open science.
- Abstract(参考訳): DNNやAIベースのアップスケーリングアルゴリズムは、機械学習の改善により人気を集めている。
CNN、GAN、混合アプローチを使ったアップスケーリングモデルが公表されている。
モデルの大部分はPSRNとSSIMを用いて評価される。
しかし,様々な実世界の画像と主観評価による性能評価が欠落しており,以下の論文で取り上げる。
そこで本研究では,Real-ESRGAN,BSRGAN,waifu2x,KXNet,Lanczosという,136のベースイメージと5種類のアップスケーリング手法を用いたデータセットについて述べる。
全体として、データセットは1496の注釈付き画像で構成されている。
当社のデータセットのラベル付けは画像の魅力を重視しており、オープンソースツールであるAVRate Voyagerを使ったクラウドソーシングを使用して実施されています。
その結果,Real-ESRGANとBSRGANが最適であることが示唆された。
さらに、DNNをトレーニングして、どのアップスケーリング手法が使われているかを検知し、トレーニングされたモデルは、評価において優れた総合性能を有する。
これに加えて,最先端画像の魅力と品質モデルの評価を行ったが,どのモデルも高い予測性能を示しておらず,また2つのアプローチを訓練した。
第1のモデルは転送学習を使い、最高の性能を持ち、第2のモデルは信号に基づく特徴と、全体的な性能が良いランダムフォレストモデルを使用する。
我々は、オープンサイエンスの文脈でさらなる研究を可能にするデータと実装を共有している。
関連論文リスト
- A Large-scale AI-generated Image Inpainting Benchmark [11.216906046169683]
本稿では,高品質な塗り絵データセットの作成手法を提案し,それをDiQuID作成に適用する。
DiQuIDは、MS-COCO、RAISE、OpenImagesから78,000個のオリジナル画像から生成された95,000枚のインペイント画像で構成されている。
我々は、最先端の偽造検出手法を用いて包括的なベンチマーク結果を提供し、検出アルゴリズムの評価と改善におけるデータセットの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-10T15:56:28Z) - Enhanced Convolutional Neural Networks for Improved Image Classification [0.40964539027092917]
CIFAR-10は、小規模のマルチクラスデータセットの分類モデルの性能を評価するために広く使用されているベンチマークである。
本稿では,より深い畳み込みブロック,バッチ正規化,ドロップアウト正規化を統合したCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-02T04:32:25Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification [0.0]
まず、ラベルのない大量のデータから共通特徴表現を学習できるように、自己スーパービジョンでモデルを事前訓練する。
その後、数ショットのデータセットMini-ImageNetで微調整を行い、限られたデータの下でモデルの精度と一般化能力を改善する。
論文 参考訳(メタデータ) (2024-11-19T01:01:56Z) - Improving Interpretability and Robustness for the Detection of AI-Generated Images [6.116075037154215]
凍結したCLIP埋め込みに基づいて、既存の最先端AIGI検出手法を解析する。
さまざまなAIジェネレータが生成する画像が実際の画像とどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-06-21T10:33:09Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - An Interaction-based Convolutional Neural Network (ICNN) Towards Better
Understanding of COVID-19 X-ray Images [0.0]
本稿では,局所情報の関連性を仮定しない対話型畳み込みニューラルネットワーク(ICNN)を提案する。
提案手法は、新型コロナウイルスのチェストX線画像を分類した実世界のデータセット上で、99.8%の最先端予測性能を実現する。
論文 参考訳(メタデータ) (2021-06-13T04:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。