論文の概要: Segmenting and Understanding: Region-aware Semantic Attention for Fine-grained Image Quality Assessment with Large Language Models
- arxiv url: http://arxiv.org/abs/2508.07818v1
- Date: Mon, 11 Aug 2025 10:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.039975
- Title: Segmenting and Understanding: Region-aware Semantic Attention for Fine-grained Image Quality Assessment with Large Language Models
- Title(参考訳): セグメンテーションと理解:大言語モデルを用いたきめ細かい画像品質評価のための領域認識セマンティックアテンション
- Authors: Chenyue Song, Chen Hui, Haiqi Zhu, Feng Jiang, Yachun Mi, Wei Zhang, Shaohui Liu,
- Abstract要約: 非参照画像品質評価(NR-IQA)は、人間の知覚に合わせた画像品質の知覚過程をシミュレートすることを目的としている。
領域レベルの歪み情報を統合し,多次元品質の相違を知覚する精細な画質評価モデル RSFIQA を提案する。
- 参考スコア(独自算出の注目度): 15.08436609204683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: No-reference image quality assessment (NR-IQA) aims to simulate the process of perceiving image quality aligned with subjective human perception. However, existing NR-IQA methods either focus on global representations that leads to limited insights into the semantically salient regions or employ a uniform weighting for region features that weakens the sensitivity to local quality variations. In this paper, we propose a fine-grained image quality assessment model, named RSFIQA, which integrates region-level distortion information to perceive multi-dimensional quality discrepancies. To enhance regional quality awareness, we first utilize the Segment Anything Model (SAM) to dynamically partition the input image into non-overlapping semantic regions. For each region, we teach a powerful Multi-modal Large Language Model (MLLM) to extract descriptive content and perceive multi-dimensional distortions, enabling a comprehensive understanding of both local semantics and quality degradations. To effectively leverage this information, we introduce Region-Aware Semantic Attention (RSA) mechanism, which generates a global attention map by aggregating fine-grained representations from local regions. In addition, RSFIQA is backbone-agnostic and can be seamlessly integrated into various deep neural network architectures. Extensive experiments demonstrate the robustness and effectiveness of the proposed method, which achieves competitive quality prediction performance across multiple benchmark datasets.
- Abstract(参考訳): 非参照画像品質評価(NR-IQA)は、主観的人間の知覚に合わせた画像品質の知覚過程をシミュレートすることを目的としている。
しかし、既存のNR-IQA法は、意味的に健全な領域に対する限られた洞察をもたらすグローバルな表現に焦点を当てるか、局所的な品質変化に対する感度を弱めるような地域の特徴を均一に重み付けする。
本稿では,領域レベルの歪み情報を統合し,多次元の画質差を知覚する精細な画質評価モデル RSFIQA を提案する。
そこで我々はまず,Segment Anything Model(SAM)を用いて,入力画像を非重複セマンティック領域に動的に分割する。
各領域に対して,記述内容の抽出と多次元歪みの認識を行う強力なマルチモーダル大言語モデル(MLLM)を指導し,局所的意味論と品質劣化の包括的理解を可能にする。
この情報を効果的に活用するために,地域別セマンティックアテンション(RSA)機構を導入する。
さらに、RSFIQAはバックボーンに依存しないため、さまざまなディープニューラルネットワークアーキテクチャにシームレスに統合することができる。
複数のベンチマークデータセット間で競合する品質予測性能を実現するため,提案手法の堅牢性と有効性を示す。
関連論文リスト
- DGIQA: Depth-guided Feature Attention and Refinement for Generalizable Image Quality Assessment [9.851063768646847]
非参照画像品質評価における長年の課題は、自然歪みを目にしない客観的な一般化の欠如である。
我々は,シーンの深度と空間的特徴を構造認識表現に蒸留する,Depth-Guided Cross-attention and refinement 機構を新たに開発した。
マルチモーダルアテンションベースプロジェクション関数としてTCBとDepth-CARを実装し,最も有用な特徴を選択する。
実験により,提案したDGIQAモデルにより,総合的および真正なベンチマークデータセット上での最先端(SOTA)性能が得られた。
論文 参考訳(メタデータ) (2025-05-29T20:52:56Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Local and Global Feature Attention Fusion Network for Face Recognition [6.479154287764899]
本稿では,特徴量に基づく地域的・グローバルな特徴注意融合(LGAF)ネットワークを提案する。
ネットワークは特徴品質に応じて局所特徴とグローバル特徴の注意を適応的に割り当て、より差別的で高品質な顔特徴を得る。
実験の結果、LGAFは4ドルの検証セットで最高の平均性能を達成していることがわかった。
論文 参考訳(メタデータ) (2024-11-25T07:55:57Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Context-Semantic Quality Awareness Network for Fine-Grained Visual Categorization [30.92656780805478]
細粒度視覚分類のための弱教師付き文脈意味品質認識ネットワーク(CSQA-Net)を提案する。
リッチな部分記述子とグローバルセマンティクスの空間的関係をモデル化するため,我々は新しい多部・多スケールクロスアテンション(MPMSCA)モジュールを開発した。
また、バックボーンネットワークの異なるレベルからの階層的セマンティクスを段階的に監視し、強化する汎用的マルチレベルセマンティクス評価モジュール(MLSQE)を提案する。
論文 参考訳(メタデータ) (2024-03-15T13:40:44Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - ScoreNet: Learning Non-Uniform Attention and Augmentation for
Transformer-Based Histopathological Image Classification [11.680355561258427]
高解像度画像はデジタル病理の進歩を妨げる。
パッチベースの処理は、しばしば複数のインスタンス学習(MIL)を組み込んで、画像レベルの予測をもたらす局所的なパッチレベルの表現を集約する。
本稿では,組織像分類に適したトランスフォーマーアーキテクチャを提案する。
局所的なきめ細かな注意と粗いグローバルな注意機構を組み合わせることで、高解像度画像の意味的な表現を効率的な計算コストで学習する。
論文 参考訳(メタデータ) (2022-02-15T16:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。