論文の概要: SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2603.13669v1
- Date: Sat, 14 Mar 2026 00:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.329078
- Title: SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment
- Title(参考訳): SHAMISA:自己監督型非参照画像品質評価のための意図しない構造関連のSHApedモデリング
- Authors: Mahdi Naseri, Zhou Wang,
- Abstract要約: No-Reference Image Quality Assessment (NR-IQA) は、素質の基準画像にアクセスすることなく知覚品質を推定することを目的としている。
本研究では,非コントラストな自己監督型フレームワークであるSHAMISAを提案する。
- 参考スコア(独自算出の注目度): 6.175621390241037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: No-Reference Image Quality Assessment (NR-IQA) aims to estimate perceptual quality without access to a reference image of pristine quality. Learning an NR-IQA model faces a fundamental bottleneck: its need for a large number of costly human perceptual labels. We propose SHAMISA, a non-contrastive self-supervised framework that learns from unlabeled distorted images by leveraging explicitly structured relational supervision. Unlike prior methods that impose rigid, binary similarity constraints, SHAMISA introduces implicit structural associations, defined as soft, controllable relations that are both distortion-aware and content-sensitive, inferred from synthetic metadata and intrinsic feature structure. A key innovation is our compositional distortion engine, which generates an uncountable family of degradations from continuous parameter spaces, grouped so that only one distortion factor varies at a time. This enables fine-grained control over representational similarity during training: images with shared distortion patterns are pulled together in the embedding space, while severity variations produce structured, predictable shifts. We integrate these insights via dual-source relation graphs that encode both known degradation profiles and emergent structural affinities to guide the learning process throughout training. A convolutional encoder is trained under this supervision and then frozen for inference, with quality prediction performed by a linear regressor on its features. Extensive experiments on synthetic, authentic, and cross-dataset NR-IQA benchmarks demonstrate that SHAMISA achieves strong overall performance with improved cross-dataset generalization and robustness, all without human quality annotations or contrastive losses.
- Abstract(参考訳): No-Reference Image Quality Assessment (NR-IQA) は、素質の基準画像にアクセスすることなく知覚品質を推定することを目的としている。
NR-IQAモデルの学習は基本的なボトルネックに直面している。
本研究では,非コントラストな自己監督型フレームワークであるSHAMISAを提案する。
厳密な二項類似性制約を課す従来の方法とは異なり、SHAMISAは、合成メタデータや本質的な特徴構造から推定される歪みを認識し、内容に敏感な、柔らかく制御可能な関係として定義された暗黙的な構造関連を導入している。
重要な革新は、連続パラメータ空間から無数の劣化の族を生成する構成歪みエンジンであり、同時に1つの歪み係数だけが変化するようにグループ化された。
これにより、トレーニング中の表現的類似性に対するきめ細かい制御が可能となり、共有歪みパターンのイメージは埋め込み空間にまとめられ、重度変動は構造化され予測可能なシフトを生み出す。
これらの知見を、既知の劣化プロファイルと創発的構造親和性の両方を符号化した二重ソース関係グラフを通じて統合し、学習過程をトレーニングを通してガイドする。
畳み込みエンコーダは、この監督の下で訓練され、それから推論のために凍結され、線形回帰器がその特徴について品質予測を行う。
合成, 認証, クロスデータセット NR-IQA ベンチマークの広範な実験により, SHAMISA は, 人間の品質アノテーションや対照的な損失を伴わずに, クロスデータセットの一般化と堅牢性の向上により, 高い総合的な性能を達成できることを示した。
関連論文リスト
- Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。
提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-01-31T18:12:29Z) - Bridging Information Asymmetry: A Hierarchical Framework for Deterministic Blind Face Restoration [31.878334664450776]
セマンティックロジックと連続的なテクスチャ生成を統合した階層型フレームワークである textbfPrefRestore を提案する。
本手法は,2つの相補的戦略により,この情報格差を根本的に解決する。
Pref-Restoreは、合成および実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-27T11:50:31Z) - Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。