論文の概要: Depicting Beyond Scores: Advancing Image Quality Assessment through
Multi-modal Language Models
- arxiv url: http://arxiv.org/abs/2312.08962v2
- Date: Sun, 10 Mar 2024 09:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:02:04.717200
- Title: Depicting Beyond Scores: Advancing Image Quality Assessment through
Multi-modal Language Models
- Title(参考訳): スコアを超えたDepicting:マルチモーダル言語モデルによる画像品質評価の改善
- Authors: Zhiyuan You, Zheyuan Li, Jinjin Gu, Zhenfei Yin, Tianfan Xue, Chao
Dong
- Abstract要約: 本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダル大言語モデル(MLLM)を活用することで、画像品質の詳細な、言語ベース、人間ライクな評価を可能にする
本研究は,非参照アプリケーションにおける全参照データセットの有用性を実証し,言語ベースのIQA手法が個人の好みに合わせてカスタマイズできる可能性を示唆している。
- 参考スコア(独自算出の注目度): 29.87548490316521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a Depicted image Quality Assessment method (DepictQA),
overcoming the constraints of traditional score-based methods. DepictQA allows
for detailed, language-based, human-like evaluation of image quality by
leveraging Multi-modal Large Language Models (MLLMs). Unlike conventional Image
Quality Assessment (IQA) methods relying on scores, DepictQA interprets image
content and distortions descriptively and comparatively, aligning closely with
humans' reasoning process. To build the DepictQA model, we establish a
hierarchical task framework, and collect a multi-modal IQA training dataset. To
tackle the challenges of limited training data and multi-image processing, we
propose to use multi-source training data and specialized image tags. These
designs result in a better performance of DepictQA than score-based approaches
on multiple benchmarks. Moreover, compared with general MLLMs, DepictQA can
generate more accurate reasoning descriptive languages. Our work demonstrates
the utility of our full-reference dataset in non-reference applications, and
indicates that language-based IQA methods have the potential to be customized
for individual preferences.
- Abstract(参考訳): 本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、MLLM(Multi-modal Large Language Models)を活用して、詳細な言語ベースの人間のような画像品質の評価を可能にする。
従来の画像品質評価法(IQA)とは異なり、DepictQAは画像の内容と歪みを記述的かつ相対的に解釈し、人間の推論プロセスと密接に一致させる。
DepictQAモデルを構築するために,階層型タスクフレームワークを構築し,マルチモーダルIQAトレーニングデータセットを収集する。
限られたトレーニングデータとマルチイメージ処理の課題に取り組むために,マルチソーストレーニングデータと専用イメージタグの利用を提案する。
これらの設計により、複数のベンチマークにおけるスコアベースのアプローチよりもDepictQAの性能が向上する。
さらに、一般的なMLLMと比較して、DepictQAはより正確な推論言語を生成することができる。
本研究は,非参照アプリケーションにおける全参照データセットの有用性を実証し,言語ベースのIQA手法が個人の好みに合わせてカスタマイズできる可能性を示唆している。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - PICNIQ: Pairwise Comparisons for Natural Image Quality Assessment [22.798716660911833]
ブラインド画像品質評価(BIQA)アプローチは、様々な画像に一様に適用される一般的な品質基準に依存しているため、現実のシナリオでは不足することが多い。
本稿では,PICNIQを紹介する。PICNIQは,絶対的,品質評価ではなく,相対性を重視した革新的なペアワイズ比較フレームワークである。
PICNIQ は対比較を Just-objectionable-Difference (JOD) の品質スコアに変換する。
論文 参考訳(メタデータ) (2024-03-13T23:43:36Z) - IQAGPT: Image Quality Assessment with Vision-language and ChatGPT Models [23.99102775778499]
本稿では,画像品質評価システムIQAGPTを紹介する。
トレーニングと評価のためのCT-IQAデータセットを構築した。
LLMの能力をよりよく活用するために、アノテートされた品質スコアをプロンプトテンプレートを用いて意味的にリッチなテキスト記述に変換する。
論文 参考訳(メタデータ) (2023-12-25T09:13:18Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z) - Training and challenging models for text-guided fashion image retrieval [1.4266272677701561]
新たな評価データセットであるChallenging Fashion Queries (CFQ)を導入する。
CFQは、キャプション精度と条件付き画像の類似性の正と負のラベルを持つ相対的なキャプションを含む既存のベンチマークを補完する。
本稿では,タスクに対するマルチモーダル事前訓練の重要性を実証し,属性ラベルに基づくドメイン固有の弱監督が大規模事前訓練を増強できることを示す。
論文 参考訳(メタデータ) (2022-04-23T06:24:23Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。