論文の概要: Assessing invariance to affine transformations in image quality metrics
- arxiv url: http://arxiv.org/abs/2407.17927v3
- Date: Fri, 19 Sep 2025 12:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.749687
- Title: Assessing invariance to affine transformations in image quality metrics
- Title(参考訳): 画像品質指標におけるアフィン変換の不均一性の評価
- Authors: Nuria Alabau-Bosque, Paula Daudén-Oliver, Jorge Vila-Tomás, Valero Laparra, Jesús Malo,
- Abstract要約: 本稿では,アフィン変換の不均一性を評価することによって,画像品質の指標を評価する手法を提案する。
私たちは、よく確立されたメトリクスで方法論をテストし、どちらも人間のように見えないしきい値を示していないことに気付きました。
- 参考スコア(独自算出の注目度): 2.522791298432536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subjective image quality metrics are usually evaluated according to the correlation with human opinion in databases with distortions that may appear in digital media. However, these oversee affine transformations which may represent better the changes in the images actually happening in natural conditions. Humans can be particularly invariant to these natural transformations, as opposed to the digital ones. In this work, we propose a methodology to evaluate any image quality metric by assessing their invariance to affine transformations, specifically: rotation, translation, scaling, and changes in spectral illumination. Here, invariance refers to the fact that certain distances should be neglected if their values are below a threshold. This is what we call invisibility threshold of a metric. Our methodology consists of two elements: (1) the determination of a visibility threshold in a subjective representation common to every metric, and (2) a transduction from the distance values of the metric and this common representation. This common representation is based on subjective ratings of readily available image quality databases. We determine the threshold in such common representation (the first element) using accurate psychophysics. Then, the transduction (the second element) can be trivially fitted for any metric: with the provided threshold extension of the method to any metric is straightforward. We test our methodology with some well-established metrics and find that none of them show human-like invisibility thresholds. This means that tuning the models exclusively to predict the visibility of generic distortions may disregard other properties of human vision as for instance invariances or invisibility thresholds. The data and code are publicly available to test other metrics.
- Abstract(参考訳): 画像品質の指標は通常、デジタルメディアに現れる歪みのあるデータベースにおいて、人間の意見と相関して評価される。
しかし、これらのアフィン変換は、自然条件下で実際に起こっている画像の変化をより良く表す可能性がある。
人間は、デジタルトランスフォーメーションとは対照的に、これらの自然なトランスフォーメーションに特に不変である。
本研究では,アフィン変換の不均一性,特に回転,変換,スケーリング,スペクトル照明の変化を評価することによって,画像品質の指標を評価する手法を提案する。
ここでの不変性は、値がしきい値以下であれば一定の距離を無視すべきであるという事実を指す。
これはメトリクスの可視性しきい値(invisibility threshold)と呼ばれるものです。
本手法は,(1)各計量に共通する主観的表現における可視的しきい値の決定,(2)距離値と共通表現との変換の2つの要素から構成される。
この共通表現は、容易に利用できる画像品質データベースの主観評価に基づいている。
このような共通表現(第1要素)における閾値は、正確な心理物理学を用いて決定する。
すると、トランスダクション(第2の要素)は任意の計量に対して自明に適合し、任意の計量に対するメソッドのしきい値拡張が提供される。
私たちは、よく確立されたメトリクスで方法論をテストし、どちらも人間のように見えないしきい値を示していないことに気付きました。
これは、一般的な歪みの可視性を予測するためにのみモデルをチューニングすることは、例えば不変性や可視性しきい値のような人間の視覚の他の特性を無視する可能性があることを意味する。
データとコードは、他のメトリクスをテストするために公開されています。
関連論文リスト
- A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。
具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。
これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文 参考訳(メタデータ) (2025-04-09T11:46:41Z) - BELE: Blur Equivalent Linearized Estimator [0.8192907805418581]
本稿では, テクスチャ歪みによるエッジ劣化による知覚効果と, テクスチャ歪みによるエッジ劣化による知覚効果を分離する新しいパラメトリックモデルを提案する。
ひとつはBlur Equivalent Linearized Estimatorで、強みと孤立したエッジのぼかしを測定するように設計されている。
2つ目は複雑なピーク信号-雑音比であり、テクスチャ領域に影響を及ぼす歪みを評価する。
論文 参考訳(メタデータ) (2025-03-01T14:19:08Z) - Perceptual Scales Predicted by Fisher Information Metrics [0.6906005491572401]
知覚はしばしば、観察者の外部にある物理的変数を内部の心理的変数に変換する過程と見なされる。
知覚尺度は、刺激間の相対的な差異を比較するための心理物理学的な測定から導かれる。
ここでは、古典的(空間周波数、方向)および古典的でない物理変数の知覚尺度を測定することの価値を示す。
論文 参考訳(メタデータ) (2023-10-18T07:31:47Z) - Subjective Face Transform using Human First Impressions [5.026535087391025]
この研究は生成モデルを用いて、認識属性を変更する顔画像に意味論的に意味のある編集を見つける。
我々は、実際の顔と合成顔のトレーニングを行い、予測モデルと人間の評価を用いてドメイン内画像とドメイン外画像の評価を行う。
論文 参考訳(メタデータ) (2023-09-27T03:21:07Z) - Privacy Assessment on Reconstructed Images: Are Existing Evaluation
Metrics Faithful to Human Perception? [86.58989831070426]
本研究では,手作りのメトリクスの忠実さを,再構成画像からの人間のプライバシー情報の認識に適用する。
本稿では,SemSimと呼ばれる学習に基づく尺度を提案し,オリジナル画像と再構成画像のセマンティック類似性を評価する。
論文 参考訳(メタデータ) (2023-09-22T17:58:04Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - Shift-tolerant Perceptual Similarity Metric [5.326626090397465]
既存の知覚的類似度指標は、画像とその参照がよく一致していると仮定する。
本稿では,入力画像と参照画像の小さなずれが既存の指標に与える影響について検討する。
我々は,新しいディープニューラルネットワークに基づく知覚的類似度測定法を開発した。
論文 参考訳(メタデータ) (2022-07-27T17:55:04Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - Shift Equivariance in Object Detection [8.03777903218606]
近年の研究では、CNNベースの分類器はシフト不変ではないことが示されている。
このことが物体検出にどの程度影響を与えるかは、主に2つの構造の違いと現代の検出器の予測空間の寸法の違いから明らかでない。
シフトした画像集合上での平均値の平均値と平均値の下位値と上位値のグリーディ探索に基づく評価指標を提案する。
論文 参考訳(メタデータ) (2020-08-13T10:02:02Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - NiLBS: Neural Inverse Linear Blend Skinning [59.22647012489496]
本稿では, 従来のスキン加工技術を用いて, ポーズによってパラメータ化されたニューラルネットワークを用いて変形を反転させる手法を提案する。
これらの変形を逆転する能力は、例えば距離関数、符号付き距離関数、占有率)の値を静止ポーズで事前計算し、文字が変形したときに効率的にクエリすることができる。
論文 参考訳(メタデータ) (2020-04-06T20:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。