論文の概要: Invariance of deep image quality metrics to affine transformations
- arxiv url: http://arxiv.org/abs/2407.17927v1
- Date: Thu, 25 Jul 2024 10:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 14:28:24.744388
- Title: Invariance of deep image quality metrics to affine transformations
- Title(参考訳): アフィン変換に対する深部画像品質指標の不変性
- Authors: Nuria Alabau-Bosque, Paula Daudén-Oliver, Jorge Vila-Tomás, Valero Laparra, Jesús Malo,
- Abstract要約: 我々は,アフィン変換の不均一性を評価することによって,最先端の深部画像品質指標を評価する。
我々は、その共通表現における絶対検出閾値を心理物理学的に測定し、各アフィン変換の物理単位で表現する。
この強いテストの下では、最先端のメトリクスのどれも、可視性しきい値に基づいて人間のような結果を示さないことが分かりました。
- 参考スコア(独自算出の注目度): 0.932065750652415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep architectures are the current state-of-the-art in predicting subjective image quality. Usually, these models are evaluated according to their ability to correlate with human opinion in databases with a range of distortions that may appear in digital media. However, these oversee affine transformations which may represent better the changes in the images actually happening in natural conditions. Humans can be particularly invariant to these natural transformations, as opposed to the digital ones. In this work, we evaluate state-of-the-art deep image quality metrics by assessing their invariance to affine transformations, specifically: rotation, translation, scaling, and changes in spectral illumination. We propose a methodology to assign invisibility thresholds for any perceptual metric. This methodology involves transforming the distance measured by an arbitrary metric to a common distance representation based on available subjectively rated databases. We psychophysically measure an absolute detection threshold in that common representation and express it in the physical units of each affine transform for each metric. By doing so, we allow the analyzed metrics to be directly comparable with actual human thresholds. We find that none of the state-of-the-art metrics shows human-like results under this strong test based on invisibility thresholds. This means that tuning the models exclusively to predict the visibility of generic distortions may disregard other properties of human vision as for instance invariances or invisibility thresholds.
- Abstract(参考訳): ディープアーキテクチャは、主観的な画像品質を予測する現在の最先端技術である。
通常、これらのモデルは、デジタルメディアに現れる様々な歪みを持つデータベースにおいて、人間の意見と相関する能力に基づいて評価される。
しかし、これらのアフィン変換は、自然条件下で実際に起こっている画像の変化をより良く表す可能性がある。
人間は、デジタルトランスフォーメーションとは対照的に、これらの自然なトランスフォーメーションに特に不変である。
本研究では,アフィン変換の不均一性,特に回転,変換,スケーリング,スペクトル照明の変化を評価することにより,最先端の深部画像品質指標を評価する。
本稿では,任意の知覚的指標に対して可視性閾値を割り当てる手法を提案する。
この手法は、任意の計量によって測定された距離を、利用可能な主観評価データベースに基づいて共通の距離表現に変換することを含む。
我々は、その共通表現における絶対検出閾値を心理物理学的に測定し、各計量について各アフィン変換の物理単位で表現する。
これにより、分析されたメトリクスが実際の人間の閾値と直接比較できるようになります。
この強いテストの下では、最先端のメトリクスのどれも、可視性しきい値に基づいて人間のような結果を示さないことが分かりました。
これは、一般的な歪みの可視性を予測するためにのみモデルをチューニングすることは、例えば不変性や可視性しきい値のような人間の視覚の他の特性を無視する可能性があることを意味する。
関連論文リスト
- Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting
the Variation in Human Signals during Visuo-Linguistic Processes [4.518404103861656]
本研究では,ビジュオ言語信号の変動の性質について検討し,それらが相互に相関していることを確認した。
この結果から,画像の特性から変化が生じると仮定し,事前学習された視覚エンコーダによって符号化された画像表現が,そのような変化を捉えることができるかどうかを考察する。
以上の結果から, 事前学習モデルでは, 刺激が複雑になる要因や, 人間の出力の変動要因について, 偏見が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:11:16Z) - Perceptual Scales Predicted by Fisher Information Metrics [0.6906005491572401]
知覚はしばしば、観察者の外部にある物理的変数を内部の心理的変数に変換する過程と見なされる。
知覚尺度は、刺激間の相対的な差異を比較するための心理物理学的な測定から導かれる。
ここでは、古典的(空間周波数、方向)および古典的でない物理変数の知覚尺度を測定することの価値を示す。
論文 参考訳(メタデータ) (2023-10-18T07:31:47Z) - Subjective Face Transform using Human First Impressions [5.026535087391025]
この研究は生成モデルを用いて、認識属性を変更する顔画像に意味論的に意味のある編集を見つける。
我々は、実際の顔と合成顔のトレーニングを行い、予測モデルと人間の評価を用いてドメイン内画像とドメイン外画像の評価を行う。
論文 参考訳(メタデータ) (2023-09-27T03:21:07Z) - Privacy Assessment on Reconstructed Images: Are Existing Evaluation
Metrics Faithful to Human Perception? [86.58989831070426]
本研究では,手作りのメトリクスの忠実さを,再構成画像からの人間のプライバシー情報の認識に適用する。
本稿では,SemSimと呼ばれる学習に基づく尺度を提案し,オリジナル画像と再構成画像のセマンティック類似性を評価する。
論文 参考訳(メタデータ) (2023-09-22T17:58:04Z) - DreamSim: Learning New Dimensions of Human Visual Similarity using
Synthetic Data [43.247597420676044]
現在の知覚的類似度メトリクスは、ピクセルとパッチのレベルで動作します。
これらのメトリクスは、低レベルの色やテクスチャの観点から画像を比較するが、画像レイアウト、オブジェクトポーズ、セマンティック内容の中間レベルの類似点や相違点をキャプチャできない。
我々は,画像の全体的評価を行う知覚的指標を開発した。
論文 参考訳(メタデータ) (2023-06-15T17:59:50Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - NiLBS: Neural Inverse Linear Blend Skinning [59.22647012489496]
本稿では, 従来のスキン加工技術を用いて, ポーズによってパラメータ化されたニューラルネットワークを用いて変形を反転させる手法を提案する。
これらの変形を逆転する能力は、例えば距離関数、符号付き距離関数、占有率)の値を静止ポーズで事前計算し、文字が変形したときに効率的にクエリすることができる。
論文 参考訳(メタデータ) (2020-04-06T20:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。