論文の概要: Depicting Beyond Scores: Advancing Image Quality Assessment through
Multi-modal Language Models
- arxiv url: http://arxiv.org/abs/2312.08962v1
- Date: Thu, 14 Dec 2023 14:10:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:48:49.406522
- Title: Depicting Beyond Scores: Advancing Image Quality Assessment through
Multi-modal Language Models
- Title(参考訳): スコアを超えたDepicting:マルチモーダル言語モデルによる画像品質評価の改善
- Authors: Zhiyuan You, Zheyuan Li, Jinjin Gu, Zhenfei Yin, Tianfan Xue, Chao
Dong
- Abstract要約: 画像品質評価手法(DepictQA)について紹介する。
DepictQAは従来のスコアベースのアプローチの制約を克服する。
本研究は,言語ベースのIQA手法が個人の好みに合わせてカスタマイズできる可能性を示唆している。
- 参考スコア(独自算出の注目度): 29.87548490316521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a Depicted image Quality Assessment method (DepictQA),
overcoming the constraints of traditional score-based approaches. DepictQA
leverages Multi-modal Large Language Models (MLLMs), allowing for detailed,
language-based, human-like evaluation of image quality. Unlike conventional
Image Quality Assessment (IQA) methods relying on scores, DepictQA interprets
image content and distortions descriptively and comparatively, aligning closely
with humans' reasoning process. To build the DepictQA model, we establish a
hierarchical task framework, and collect a multi-modal IQA training dataset,
named M-BAPPS. To navigate the challenges in limited training data and
processing multiple images, we propose to use multi-source training data and
specialized image tags. Our DepictQA demonstrates a better performance than
score-based methods on the BAPPS benchmark. Moreover, compared with general
MLLMs, our DepictQA can generate more accurate reasoning descriptive languages.
Our research indicates that language-based IQA methods have the potential to be
customized for individual preferences. Datasets and codes will be released
publicly.
- Abstract(参考訳): 本稿では,従来のスコアベースアプローチの制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAはMLLM(Multi-modal Large Language Models)を活用し、詳細な言語ベースの人間の画像品質評価を可能にする。
従来の画像品質評価法(IQA)とは異なり、DepictQAは画像の内容と歪みを記述的かつ相対的に解釈し、人間の推論プロセスと密接に一致させる。
DepictQAモデルを構築するために,階層型タスクフレームワークを構築し,M-BAPPSというマルチモーダルIQAトレーニングデータセットを収集する。
限られたトレーニングデータと複数の画像の処理における課題をナビゲートするために,マルチソーストレーニングデータと特殊な画像タグを使用することを提案する。
我々のDepictQAはBAPPSベンチマークのスコアベースの手法よりも優れたパフォーマンスを示している。
さらに、一般的なMLLMと比較して、私たちのDepictQAは記述言語をより正確に推論できる。
本研究は,言語ベースのIQA手法が個人の好みに合わせてカスタマイズできる可能性を示唆している。
データセットとコードは公開されます。
関連論文リスト
- Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment [69.07445098168344]
我々は,新しい画像品質評価(IQA)タスクパラダイム,グラウンドング-IQAを導入する。
Grounding-IQAは2つのサブタスクからなる: Grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA)。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
論文 参考訳(メタデータ) (2024-11-26T09:03:16Z) - ATTIQA: Generalizable Image Quality Feature Extractor using Attribute-aware Pretraining [25.680035174334886]
no-reference Image Quality Assessment (NR-IQA)では、限られたデータセットサイズでの課題は、堅牢で一般化可能なモデルの開発を妨げている。
本稿では,高品質な知識を選択的に抽出し,IQAの一般化可能な表現を構築する新しい事前学習フレームワークを提案する。
提案手法は,複数のIQAデータセット上での最先端性能を実現し,優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-06-03T06:03:57Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。
野生における画像品質評価(DepictQA-Wild)について紹介する。
本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文 参考訳(メタデータ) (2024-05-29T07:49:15Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z) - Training and challenging models for text-guided fashion image retrieval [1.4266272677701561]
新たな評価データセットであるChallenging Fashion Queries (CFQ)を導入する。
CFQは、キャプション精度と条件付き画像の類似性の正と負のラベルを持つ相対的なキャプションを含む既存のベンチマークを補完する。
本稿では,タスクに対するマルチモーダル事前訓練の重要性を実証し,属性ラベルに基づくドメイン固有の弱監督が大規模事前訓練を増強できることを示す。
論文 参考訳(メタデータ) (2022-04-23T06:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。