論文の概要: Invariance of deep image quality metrics to affine transformations
- arxiv url: http://arxiv.org/abs/2407.17927v2
- Date: Mon, 29 Jul 2024 11:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 20:22:03.386342
- Title: Invariance of deep image quality metrics to affine transformations
- Title(参考訳): アフィン変換に対する深部画像品質指標の不変性
- Authors: Nuria Alabau-Bosque, Paula Daudén-Oliver, Jorge Vila-Tomás, Valero Laparra, Jesús Malo,
- Abstract要約: 我々は,アフィン変換の不均一性を評価することによって,最先端の深部画像品質指標を評価する。
本稿では,このような視認性閾値を知覚的計量に割り当てる手法を提案する。
この強いテストの下では、最先端のメトリクスのどれも、可視性しきい値に基づいて人間のような結果を示さないことが分かりました。
- 参考スコア(独自算出の注目度): 0.932065750652415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep architectures are the current state-of-the-art in predicting subjective image quality. Usually, these models are evaluated according to their ability to correlate with human opinion in databases with a range of distortions that may appear in digital media. However, these oversee affine transformations which may represent better the changes in the images actually happening in natural conditions. Humans can be particularly invariant to these natural transformations, as opposed to the digital ones. In this work, we evaluate state-of-the-art deep image quality metrics by assessing their invariance to affine transformations, specifically: rotation, translation, scaling, and changes in spectral illumination. Here invariance of a metric refers to the fact that certain distances should be neglected (considered to be zero) if their values are below a threshold. This is what we call invisibility threshold of a metric. We propose a methodology to assign such invisibility thresholds for any perceptual metric. This methodology involves transformations to a distance space common to any metric, and psychophysical measurements of thresholds in this common space. By doing so, we allow the analyzed metrics to be directly comparable with actual human thresholds. We find that none of the state-of-the-art metrics shows human-like results under this strong test based on invisibility thresholds. This means that tuning the models exclusively to predict the visibility of generic distortions may disregard other properties of human vision as for instance invariances or invisibility thresholds.
- Abstract(参考訳): ディープアーキテクチャは、主観的な画像品質を予測する現在の最先端技術である。
通常、これらのモデルは、デジタルメディアに現れる様々な歪みを持つデータベースにおいて、人間の意見と相関する能力に基づいて評価される。
しかし、これらのアフィン変換は、自然条件下で実際に起こっている画像の変化をより良く表す可能性がある。
人間は、デジタルトランスフォーメーションとは対照的に、これらの自然なトランスフォーメーションに特に不変である。
本研究では,アフィン変換の不均一性,特に回転,変換,スケーリング,スペクトル照明の変化を評価することにより,最先端の深部画像品質指標を評価する。
ここでの計量の不変性は、値がしきい値以下であれば、ある距離を無視する(ゼロと見なす)という事実を指す。
これはメトリクスの可視性しきい値(invisibility threshold)と呼ばれるものです。
本稿では,このような視認性閾値を知覚的計量に割り当てる手法を提案する。
この方法論は、任意の計量に共通する距離空間への変換と、この共通空間におけるしきい値の心理物理学的な測定を含む。
これにより、分析されたメトリクスが実際の人間の閾値と直接比較できるようになります。
この強いテストの下では、最先端のメトリクスのどれも、可視性しきい値に基づいて人間のような結果を示さないことが分かりました。
これは、一般的な歪みの可視性を予測するためにのみモデルをチューニングすることは、例えば不変性や可視性しきい値のような人間の視覚の他の特性を無視する可能性があることを意味する。
関連論文リスト
- Perceptual Scales Predicted by Fisher Information Metrics [0.6906005491572401]
知覚はしばしば、観察者の外部にある物理的変数を内部の心理的変数に変換する過程と見なされる。
知覚尺度は、刺激間の相対的な差異を比較するための心理物理学的な測定から導かれる。
ここでは、古典的(空間周波数、方向)および古典的でない物理変数の知覚尺度を測定することの価値を示す。
論文 参考訳(メタデータ) (2023-10-18T07:31:47Z) - Subjective Face Transform using Human First Impressions [5.026535087391025]
この研究は生成モデルを用いて、認識属性を変更する顔画像に意味論的に意味のある編集を見つける。
我々は、実際の顔と合成顔のトレーニングを行い、予測モデルと人間の評価を用いてドメイン内画像とドメイン外画像の評価を行う。
論文 参考訳(メタデータ) (2023-09-27T03:21:07Z) - Privacy Assessment on Reconstructed Images: Are Existing Evaluation
Metrics Faithful to Human Perception? [86.58989831070426]
本研究では,手作りのメトリクスの忠実さを,再構成画像からの人間のプライバシー情報の認識に適用する。
本稿では,SemSimと呼ばれる学習に基づく尺度を提案し,オリジナル画像と再構成画像のセマンティック類似性を評価する。
論文 参考訳(メタデータ) (2023-09-22T17:58:04Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - Shift-tolerant Perceptual Similarity Metric [5.326626090397465]
既存の知覚的類似度指標は、画像とその参照がよく一致していると仮定する。
本稿では,入力画像と参照画像の小さなずれが既存の指標に与える影響について検討する。
我々は,新しいディープニューラルネットワークに基づく知覚的類似度測定法を開発した。
論文 参考訳(メタデータ) (2022-07-27T17:55:04Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - Shift Equivariance in Object Detection [8.03777903218606]
近年の研究では、CNNベースの分類器はシフト不変ではないことが示されている。
このことが物体検出にどの程度影響を与えるかは、主に2つの構造の違いと現代の検出器の予測空間の寸法の違いから明らかでない。
シフトした画像集合上での平均値の平均値と平均値の下位値と上位値のグリーディ探索に基づく評価指標を提案する。
論文 参考訳(メタデータ) (2020-08-13T10:02:02Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - NiLBS: Neural Inverse Linear Blend Skinning [59.22647012489496]
本稿では, 従来のスキン加工技術を用いて, ポーズによってパラメータ化されたニューラルネットワークを用いて変形を反転させる手法を提案する。
これらの変形を逆転する能力は、例えば距離関数、符号付き距離関数、占有率)の値を静止ポーズで事前計算し、文字が変形したときに効率的にクエリすることができる。
論文 参考訳(メタデータ) (2020-04-06T20:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。