論文の概要: Invariance of deep image quality metrics to affine transformations
- arxiv url: http://arxiv.org/abs/2407.17927v1
- Date: Thu, 25 Jul 2024 10:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:28:24.744388
- Title: Invariance of deep image quality metrics to affine transformations
- Title(参考訳): アフィン変換に対する深部画像品質指標の不変性
- Authors: Nuria Alabau-Bosque, Paula Daudén-Oliver, Jorge Vila-Tomás, Valero Laparra, Jesús Malo,
- Abstract要約: 我々は,アフィン変換の不均一性を評価することによって,最先端の深部画像品質指標を評価する。
我々は、その共通表現における絶対検出閾値を心理物理学的に測定し、各アフィン変換の物理単位で表現する。
この強いテストの下では、最先端のメトリクスのどれも、可視性しきい値に基づいて人間のような結果を示さないことが分かりました。
- 参考スコア(独自算出の注目度): 0.932065750652415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep architectures are the current state-of-the-art in predicting subjective image quality. Usually, these models are evaluated according to their ability to correlate with human opinion in databases with a range of distortions that may appear in digital media. However, these oversee affine transformations which may represent better the changes in the images actually happening in natural conditions. Humans can be particularly invariant to these natural transformations, as opposed to the digital ones. In this work, we evaluate state-of-the-art deep image quality metrics by assessing their invariance to affine transformations, specifically: rotation, translation, scaling, and changes in spectral illumination. We propose a methodology to assign invisibility thresholds for any perceptual metric. This methodology involves transforming the distance measured by an arbitrary metric to a common distance representation based on available subjectively rated databases. We psychophysically measure an absolute detection threshold in that common representation and express it in the physical units of each affine transform for each metric. By doing so, we allow the analyzed metrics to be directly comparable with actual human thresholds. We find that none of the state-of-the-art metrics shows human-like results under this strong test based on invisibility thresholds. This means that tuning the models exclusively to predict the visibility of generic distortions may disregard other properties of human vision as for instance invariances or invisibility thresholds.
- Abstract(参考訳): ディープアーキテクチャは、主観的な画像品質を予測する現在の最先端技術である。
通常、これらのモデルは、デジタルメディアに現れる様々な歪みを持つデータベースにおいて、人間の意見と相関する能力に基づいて評価される。
しかし、これらのアフィン変換は、自然条件下で実際に起こっている画像の変化をより良く表す可能性がある。
人間は、デジタルトランスフォーメーションとは対照的に、これらの自然なトランスフォーメーションに特に不変である。
本研究では,アフィン変換の不均一性,特に回転,変換,スケーリング,スペクトル照明の変化を評価することにより,最先端の深部画像品質指標を評価する。
本稿では,任意の知覚的指標に対して可視性閾値を割り当てる手法を提案する。
この手法は、任意の計量によって測定された距離を、利用可能な主観評価データベースに基づいて共通の距離表現に変換することを含む。
我々は、その共通表現における絶対検出閾値を心理物理学的に測定し、各計量について各アフィン変換の物理単位で表現する。
これにより、分析されたメトリクスが実際の人間の閾値と直接比較できるようになります。
この強いテストの下では、最先端のメトリクスのどれも、可視性しきい値に基づいて人間のような結果を示さないことが分かりました。
これは、一般的な歪みの可視性を予測するためにのみモデルをチューニングすることは、例えば不変性や可視性しきい値のような人間の視覚の他の特性を無視する可能性があることを意味する。
関連論文リスト
- Perceptual Scales Predicted by Fisher Information Metrics [0.6906005491572401]
知覚はしばしば、観察者の外部にある物理的変数を内部の心理的変数に変換する過程と見なされる。
知覚尺度は、刺激間の相対的な差異を比較するための心理物理学的な測定から導かれる。
ここでは、古典的(空間周波数、方向)および古典的でない物理変数の知覚尺度を測定することの価値を示す。
論文 参考訳(メタデータ) (2023-10-18T07:31:47Z) - Subjective Face Transform using Human First Impressions [5.026535087391025]
この研究は生成モデルを用いて、認識属性を変更する顔画像に意味論的に意味のある編集を見つける。
我々は、実際の顔と合成顔のトレーニングを行い、予測モデルと人間の評価を用いてドメイン内画像とドメイン外画像の評価を行う。
論文 参考訳(メタデータ) (2023-09-27T03:21:07Z) - Privacy Assessment on Reconstructed Images: Are Existing Evaluation
Metrics Faithful to Human Perception? [86.58989831070426]
本研究では,手作りのメトリクスの忠実さを,再構成画像からの人間のプライバシー情報の認識に適用する。
本稿では,SemSimと呼ばれる学習に基づく尺度を提案し,オリジナル画像と再構成画像のセマンティック類似性を評価する。
論文 参考訳(メタデータ) (2023-09-22T17:58:04Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - Shift-tolerant Perceptual Similarity Metric [5.326626090397465]
既存の知覚的類似度指標は、画像とその参照がよく一致していると仮定する。
本稿では,入力画像と参照画像の小さなずれが既存の指標に与える影響について検討する。
我々は,新しいディープニューラルネットワークに基づく知覚的類似度測定法を開発した。
論文 参考訳(メタデータ) (2022-07-27T17:55:04Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - Shift Equivariance in Object Detection [8.03777903218606]
近年の研究では、CNNベースの分類器はシフト不変ではないことが示されている。
このことが物体検出にどの程度影響を与えるかは、主に2つの構造の違いと現代の検出器の予測空間の寸法の違いから明らかでない。
シフトした画像集合上での平均値の平均値と平均値の下位値と上位値のグリーディ探索に基づく評価指標を提案する。
論文 参考訳(メタデータ) (2020-08-13T10:02:02Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - NiLBS: Neural Inverse Linear Blend Skinning [59.22647012489496]
本稿では, 従来のスキン加工技術を用いて, ポーズによってパラメータ化されたニューラルネットワークを用いて変形を反転させる手法を提案する。
これらの変形を逆転する能力は、例えば距離関数、符号付き距離関数、占有率)の値を静止ポーズで事前計算し、文字が変形したときに効率的にクエリすることができる。
論文 参考訳(メタデータ) (2020-04-06T20:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。