論文の概要: SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
- arxiv url: http://arxiv.org/abs/2411.10161v1
- Date: Fri, 15 Nov 2024 13:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:11.911131
- Title: SEAGULL: No-reference Image Quality Assessment for Regions of Interest via Vision-Language Instruction Tuning
- Title(参考訳): SEAGULL:視覚言語指導による関心領域の非参照画像品質評価
- Authors: Zewen Chen, Juan Wang, Wen Wang, Sunhan Xu, Hang Xiong, Yun Zeng, Jian Guo, Shuxun Wang, Chunfeng Yuan, Bing Li, Weiming Hu,
- Abstract要約: 本稿では,大規模視覚・言語モデルを用いたGUidanceを用いてROI品質を評価・評価できる新しいネットワークSEAGULLを提案する。
SEAGULLは、視覚言語モデル(VLM)、SAM(Segment Anything Model)によって生成されたマスクをROIとして、MFE(Mask-based Feature Extractor)を巧みに設計し、指定されたROIのグローバルトークンとローカルトークンを抽出する。
SEAGULL-100w の事前トレーニングと SEAGULL-3k の微調整を行った後, SEAGULL は細粒化ROI 品質評価において顕著な性能を示した。
- 参考スコア(独自算出の注目度): 36.701500426990755
- License:
- Abstract: Existing Image Quality Assessment (IQA) methods achieve remarkable success in analyzing quality for overall image, but few works explore quality analysis for Regions of Interest (ROIs). The quality analysis of ROIs can provide fine-grained guidance for image quality improvement and is crucial for scenarios focusing on region-level quality. This paper proposes a novel network, SEAGULL, which can SEe and Assess ROIs quality with GUidance from a Large vision-Language model. SEAGULL incorporates a vision-language model (VLM), masks generated by Segment Anything Model (SAM) to specify ROIs, and a meticulously designed Mask-based Feature Extractor (MFE) to extract global and local tokens for specified ROIs, enabling accurate fine-grained IQA for ROIs. Moreover, this paper constructs two ROI-based IQA datasets, SEAGULL-100w and SEAGULL-3k, for training and evaluating ROI-based IQA. SEAGULL-100w comprises about 100w synthetic distortion images with 33 million ROIs for pre-training to improve the model's ability of regional quality perception, and SEAGULL-3k contains about 3k authentic distortion ROIs to enhance the model's ability to perceive real world distortions. After pre-training on SEAGULL-100w and fine-tuning on SEAGULL-3k, SEAGULL shows remarkable performance on fine-grained ROI quality assessment. Code and datasets are publicly available at the https://github.com/chencn2020/Seagull.
- Abstract(参考訳): 既存の画像品質評価法(IQA)は、画像全体の品質分析において顕著な成功を収めるが、関心の領域(ROI)の品質分析を探求する研究はほとんどない。
ROIの品質分析は、画像品質改善のためのきめ細かいガイダンスを提供することができ、領域レベルの品質に焦点を当てたシナリオには不可欠である。
本稿では,大規模視覚・言語モデルを用いたGUidanceを用いてROI品質を評価・評価できる新しいネットワークSEAGULLを提案する。
SEAGULLは、視覚言語モデル(VLM)、SAM(Segment Anything Model)によって生成されたマスクをROIとして、MFE(Mask-based Feature Extractor)を巧みに設計し、特定のROIのグローバルトークンとローカルトークンを抽出し、ROIの精密なIQAを可能にする。
さらに,2つのROIベースのIQAデータセットであるSEAGULL-100wとSEAGULL-3kを構築し,ROIベースのIQAのトレーニングと評価を行う。
SEAGULL-100wは、約100wの合成歪み画像と3300万ROIの事前トレーニングを行い、モデルの地域品質知覚能力を向上させる。
SEAGULL-100w の事前トレーニングと SEAGULL-3k の微調整を行った後, SEAGULL は細粒化ROI 品質評価において顕著な性能を示した。
コードとデータセットはhttps://github.com/chencn2020/Seagull.comで公開されている。
関連論文リスト
- Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。
我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。
本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。
野生における画像品質評価(DepictQA-Wild)について紹介する。
本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文 参考訳(メタデータ) (2024-05-29T07:49:15Z) - Enhancing Blind Video Quality Assessment with Rich Quality-aware Features [79.18772373737724]
ソーシャルメディアビデオの視覚的品質評価(BVQA)モデルを改善するための,シンプルだが効果的な手法を提案する。
本稿では,BIQAモデルとBVQAモデルを用いて,事前学習したブラインド画像品質評価(BIQA)から,リッチな品質認識機能について検討する。
実験により,提案モデルが3つのソーシャルメディアVQAデータセット上で最高の性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-14T16:32:11Z) - Q-Refine: A Perceptual Quality Refiner for AI-Generated Image [85.89840673640028]
Q-Refineという品質改善手法を提案する。
画像品質評価(IQA)メトリクスを使用して、初めて精錬プロセスをガイドする。
忠実度と美的品質の両方からAIGIを最適化するための一般的な精錬機となる。
論文 参考訳(メタデータ) (2024-01-02T09:11:23Z) - QMRNet: Quality Metric Regression for EO Image Quality Assessment and
Super-Resolution [2.425299069769717]
我々は、異なる地球観測(EO)データセットに対して、最先端の超解法(SR)アルゴリズムをベンチマークする。
また,画像の任意の特性をトレーニングすることで,品質を予測できる新しい品質指標回帰ネットワーク(QMRNet)を提案する。
総合ベンチマークでは、LIIF、CAR、MSRNの有望な結果と、SR予測を最適化するためのロスとしてQMRNetが使用される可能性を示している。
論文 参考訳(メタデータ) (2022-10-12T22:51:13Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - Quality Assessment of Super-Resolved Omnidirectional Image Quality Using
Tangential Views [11.825034741333374]
全方位画像(ODI)は、特定の360度シーンのあらゆる方向を固定点から探索することを可能にする。
本稿では,GANベースおよびCNNベースSISR法により生成されたODIの品質測定を対象とする,客観的かつ完全な品質評価フレームワークを提案する。
設計したフレームワークに適応した広範に使われているフル参照SISR品質指標を用いて、最先端SISRの2つの手法を広範囲に評価した。
論文 参考訳(メタデータ) (2021-01-25T20:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。