論文の概要: Structured Uncertainty Similarity Score (SUSS): Learning a Probabilistic, Interpretable, Perceptual Metric Between Images
- arxiv url: http://arxiv.org/abs/2512.03701v1
- Date: Wed, 03 Dec 2025 11:48:59 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:08:43.070053
- Title: Structured Uncertainty Similarity Score (SUSS): Learning a Probabilistic, Interpretable, Perceptual Metric Between Images
- Title(参考訳): 構造的不確かさ類似度スコア(SUSS) : 画像間の確率的・解釈可能・知覚的距離の学習
- Authors: Paula Seidler, Neill D. F. Campbell, Ivor J A Simpson,
- Abstract要約: 人間の視覚と一致した知覚的類似度スコアは、コンピュータビジョンモデルのトレーニングと評価の両方に不可欠である。
SUSS (Structured Uncertainity similarity Score) を導入し、知覚コンポーネントの集合を通して各イメージをモデル化する。
最終的なスコアは、人間の知覚データセットから学んだ重み付きコンポーネントログ確率の重み付き総和である。
- 参考スコア(独自算出の注目度): 3.1296300934639327
- License:
- Abstract: Perceptual similarity scores that align with human vision are critical for both training and evaluating computer vision models. Deep perceptual losses, such as LPIPS, achieve good alignment but rely on complex, highly non-linear discriminative features with unknown invariances, while hand-crafted measures like SSIM are interpretable but miss key perceptual properties. We introduce the Structured Uncertainty Similarity Score (SUSS); it models each image through a set of perceptual components, each represented by a structured multivariate Normal distribution. These are trained in a generative, self-supervised manner to assign high likelihood to human-imperceptible augmentations. The final score is a weighted sum of component log-probabilities with weights learned from human perceptual datasets. Unlike feature-based methods, SUSS learns image-specific linear transformations of residuals in pixel space, enabling transparent inspection through decorrelated residuals and sampling. SUSS aligns closely with human perceptual judgments, shows strong perceptual calibration across diverse distortion types, and provides localized, interpretable explanations of its similarity assessments. We further demonstrate stable optimization behavior and competitive performance when using SUSS as a perceptual loss for downstream imaging tasks.
- Abstract(参考訳): 人間の視覚と一致した知覚的類似度スコアは、コンピュータビジョンモデルのトレーニングと評価の両方に不可欠である。
LPIPSのような深い知覚的損失は、良好な整合性を達成するが、未知の不変性を持つ複雑で非線形な識別的特徴に依存し、SSIMのような手作りの尺度は解釈可能であるが、鍵知覚的性質を見逃す。
構造的不確かさ類似度スコア (Structured Uncertainity similarity Score, SUSS) を導入し, それぞれのイメージを知覚的成分の集合を通してモデル化し, それぞれが構造的多変量正規分布で表される。
これらは、人間の知覚できない拡張に高い可能性を与えるために、生成的で自己管理的な方法で訓練される。
最終的なスコアは、人間の知覚データセットから学んだ重み付きコンポーネントログ確率の重み付き総和である。
特徴ベースの方法とは異なり、SUSSは画素空間内の残差のイメージ固有の線形変換を学習し、非相関的な残差とサンプリングを通して透過的な検査を可能にする。
SUSSは人間の知覚的判断と密接に一致し、様々な歪みタイプの知覚的キャリブレーションを示し、その類似性評価の局所的、解釈可能な説明を提供する。
さらに、下流画像タスクの知覚的損失としてSUSSを使用する場合、安定した最適化挙動と競合性能を示す。
関連論文リスト
- Context-Enriched Contrastive Loss: Enhancing Presentation of Inherent Sample Connections in Contrastive Learning Framework [5.906578607951289]
対照的な学習において、対照的な損失関数は、回転や収穫といった技術を通してサンプル間の類似性を識別する上で重要な役割を担っている。
本稿では,2つの収束目標を包含することで,学習効率を同時に向上し,情報歪みに対処するコンテキスト強化コントラスト損失関数を提案する。
論文 参考訳(メタデータ) (2025-12-01T19:26:19Z) - Hybrid Image Resolution Quality Metric (HIRQM):A Comprehensive Perceptual Image Quality Assessment Framework [0.0]
本稿では,HIRQM(Hybrid Image Resolution Quality Metric)を提案する。
動的重み付け機構は、輝度や分散といったイメージ特性に基づいてコンポーネントのコントリビューションを適応し、歪みタイプ間の柔軟性を向上させる。
TID2013とLIVデータセット、HIRQMピアソンとスピアマンの相関を0.92と0.90と評価し、従来の指標を上回った。
論文 参考訳(メタデータ) (2025-05-04T06:14:10Z) - Unsupervised Representation Learning by Balanced Self Attention Matching [2.3020018305241337]
本稿では,BAMと呼ばれる画像特徴を埋め込む自己教師型手法を提案する。
我々は,これらの分布とグローバルな均衡とエントロピー正規化バージョンに一致する損失を最小化することにより,豊かな表現と特徴の崩壊を回避する。
半教師付きベンチマークと移動学習ベンチマークの両方において,先行手法と競合する性能を示す。
論文 参考訳(メタデータ) (2024-08-04T12:52:44Z) - The Unreasonable Effectiveness of Linear Prediction as a Perceptual
Metric [6.1693649058046764]
我々は、トレーニングデータやディープニューラルネットワーク機能なしで、視覚系の知覚的な埋め込みが、どのようにして推論時に構築できるかを示す。
我々の知覚埋め込みは、ピクセルレベルで定義された重み付き最小二乗問題(WLS)の解であり、推論時に解かれる。
論文 参考訳(メタデータ) (2023-10-06T19:02:00Z) - Self-similarity Driven Scale-invariant Learning for Weakly Supervised
Person Search [66.95134080902717]
自己相似性駆動型スケール不変学習(SSL)という新しいワンステップフレームワークを提案する。
本稿では,ネットワークを前景と学習スケール不変の機能に集中させるための,マルチスケール・エクステンプラー・ブランチを提案する。
PRWおよびCUHK-SYSUデータベースの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-25T04:48:11Z) - Causal Transportability for Visual Recognition [70.13627281087325]
画像とラベルの関連性は、設定間では転送できないため、標準分類器がフェールすることを示す。
次に、すべての共起源を摂食する因果効果が、ドメイン間で不変であることを示す。
これにより、画像分類における因果効果を推定するアルゴリズムを開発する動機付けとなる。
論文 参考訳(メタデータ) (2022-04-26T15:02:11Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Projected Distribution Loss for Image Enhancement [15.297569497776374]
CNNアクティベーション間の1D-ワッサースタイン距離の集約は,既存の手法よりも信頼性が高いことを示す。
デノイジング、スーパーレゾリューション、復号化、デブレーション、JPEGアーティファクト除去などのイメージングアプリケーションでは、提案された学習損失は、参照ベースの知覚的損失に関する現在の最先端のものを上回る。
論文 参考訳(メタデータ) (2020-12-16T22:13:03Z) - Uncertainty-Aware Few-Shot Image Classification [118.72423376789062]
ラベル付き限られたデータから新しいカテゴリを認識できる画像分類はほとんどない。
画像分類のための不確実性を考慮したFew-Shotフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T12:26:27Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。