論文の概要: Distortion-Aware Fusion of Statistical and Vision-Language Features for Blind Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2606.02002v1
- Date: Mon, 01 Jun 2026 09:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.775419
- Title: Distortion-Aware Fusion of Statistical and Vision-Language Features for Blind Image Quality Assessment
- Title(参考訳): ブラインド画像品質評価のための統計的・視覚的特徴の歪み認識融合
- Authors: Bishr Omer Abdelrahman Adam, Xu Li,
- Abstract要約: 138次元のNASディスクリプタと2つの相補的なVLM埋め込みを統合した歪み認識型融合フレームワークを提案する。
KADID-10kの歪み毎の解析により、SNSの特徴がノイズや色シフトの歪みに最も寄与していることが明らかになった。
- 参考スコア(独自算出の注目度): 3.4153424359998508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blind image quality assessment (BIQA) aims to predict perceived image quality without access to a reference image. Classical natural scene statistics (NSS) descriptors and modern vision-language model (VLM) embeddings address this problem from fundamentally different perspectives, yet whether combining them yields complementary benefits and how to weight their contributions per input image remains unexplored. We propose a distortion-aware fusion framework that integrates a 138-dimensional NSS descriptor with two complementary VLM embeddings, SigLIP and CLIP-H, through a multiplicative gating mechanism that learns per-input stream weights conditioned on image content. Unlike static concatenation fusion, the proposed gating network suppresses or amplifies each stream's contribution based on the input, producing weights that correlate positively (Spearman rank correlation rho=0.33) with the per-distortion NSS contribution measured by independent ablation on KADID-10k. The framework requires no end-to-end fine-tuning of the VLM backbones and is trained with a hybrid loss combining mean squared error, Pearson linear correlation, and pairwise ranking objectives. We evaluate on three standard benchmarks: KonIQ-10k (SROCC=0.9142, PLCC=0.9279), KADID-10k (SROCC=0.9715, PLCC=0.9733, surpassing recent state-of-the-art methods), and LIVE Challenge in-the-Wild (SROCC=0.8527, PLCC=0.8802 with cross-dataset pretraining and fine-tuning). A per-distortion analysis on KADID-10k reveals that NSS features contribute most on noise and color-shift distortions where pixel statistics are directly affected, and least on perceptual distortions such as color saturation changes. The learned gate values validate these findings, confirming that the model autonomously discovers distortion-stream affinity patterns consistent with the manual per-distortion study.
- Abstract(参考訳): ブラインド画像品質評価(BIQA)は、参照画像にアクセスすることなく知覚された画像品質を予測することを目的としている。
古典的自然シーン統計(NSS)記述と現代の視覚言語モデル(VLM)埋め込みは、この問題を根本的に異なる視点から解決するが、それらを組み合わせることで相補的な利点が得られ、入力画像当たりの貢献を重み付けする方法は未検討のままである。
本稿では,138次元のNASディスクリプタとSigLIPとCLIP-Hの2つの相補的なVLM埋め込みを統合し,画像内容に条件付きインプット毎のストリーム重みを学習する乗算ゲーティング機構を提案する。
静的結合融合とは異なり、提案したゲーティングネットワークは入力に基づいて各ストリームの寄与を抑制または増幅し、KADID-10k上の独立アブレーションによって測定された歪み毎のNAS寄与と正の相関(スピアマンランク相関rho=0.33)を持つ重みを生成する。
このフレームワークは、VLMバックボーンのエンドツーエンドの微調整を必要とせず、平均二乗誤差、ピアソン線形相関、ペアのランク付け目的を組み合わせたハイブリッド損失で訓練される。
KonIQ-10k (SROCC=0.9142, PLCC=0.9279), KADID-10k (SROCC=0.9715, PLCC=0.9733), LIVE Challenge in-the-Wild (SROCC=0.8527, PLCC=0.8802 with cross-dataset pretraining and fine-tuning。
KADID-10kの歪み毎の解析により、SNSの特徴は、画素統計が直接影響を受けるノイズや色変化の歪み、少なくとも彩度の変化などの知覚歪みに最も寄与していることが明らかとなった。
学習したゲート値はこれらの知見を検証し、モデルが手動による歪み流の親和性パターンを自律的に発見することを確認する。
関連論文リスト
- Multi-Contrast MRI Motion Correction via Parameter-Informed Disentanglement and Adaptive Experts [56.74856091904914]
パラメータインフォームドコントラストと重度適応補正を組み合わせた統合フレームワークを提案する。
ScanCLIPは、取得パラメータからアンタングルコントラストスタイルへのコントラスト埋め込みを解剖学的内容から導き、コントラストのない特徴をもたらす。
ビジョントランスフォーマーは、動きの重大度を推定し、Mixture-of-Expertsネットワークを介して特徴をルーティングし、ターゲットのアーティファクト修正を可能にする。
論文 参考訳(メタデータ) (2026-05-29T02:48:23Z) - SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment [6.175621390241037]
No-Reference Image Quality Assessment (NR-IQA) は、素質の基準画像にアクセスすることなく知覚品質を推定することを目的としている。
本研究では,非コントラストな自己監督型フレームワークであるSHAMISAを提案する。
論文 参考訳(メタデータ) (2026-03-14T00:37:26Z) - A Contrastive Pre-trained Foundation Model for Deciphering Imaging Noisomics across Modalities [21.574587733837973]
ノイズ(Noisomics)とは、抑圧から体系的なノイズデコーディングへ焦点を移すフレームワークである。
CoPはコントラスト学習を用いて摂動から意味的信号を解き放つ。
CoPは従来のディープラーニングスケーリングの法則を破り、100のトレーニングサンプルだけで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-21T02:52:34Z) - No-Reference Image Contrast Assessment with Customized EfficientNet-B0 [3.4527546378946]
NR IQAモデルでは,様々な実環境下でのコントラスト歪みの精度評価に苦慮した基準画像品質評価は行われなかった。
本研究では,ブラインドコントラスト品質評価のためのディープラーニングに基づくフレームワークを提案する。
モデルはコントラスト対応レグレッションヘッドと、ターゲットデータ拡張を使用してトレーニングされたエンドツーエンドで修正される。
論文 参考訳(メタデータ) (2025-09-26T06:54:37Z) - A Lightweight Ensemble-Based Face Image Quality Assessment Method with Correlation-Aware Loss [14.915614314380578]
顔画像品質評価(FIQA)は、顔認識および検証システムにおいて重要な役割を果たす。
本研究では,野生における顔画像の知覚的評価を目的とした,軽量で効率的なFIQA法を提案する。
論文 参考訳(メタデータ) (2025-09-12T10:13:38Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。