論文の概要: Dog-IQA: Standard-guided Zero-shot MLLM for Mix-grained Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2410.02505v2
- Date: Thu, 10 Oct 2024 05:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:51:33.662341
- Title: Dog-IQA: Standard-guided Zero-shot MLLM for Mix-grained Image Quality Assessment
- Title(参考訳): Dog-IQA:混合画質評価のための標準誘導ゼロショットMLLM
- Authors: Kai Liu, Ziqing Zhang, Wenbo Li, Renjing Pei, Fenglong Song, Xiaohong Liu, Linghe Kong, Yulun Zhang,
- Abstract要約: 我々は,マルチモーダル大規模言語モデル(MLLM)の例外的事前知識を利用する,標準誘導型ゼロショット混合IQA法であるDog-IQAを提案する。
Dog-IQAは、MLLMの行動パターンを利用し、主観的要因の影響を最小限に抑える特定の基準で客観的に得点する。
提案したDog-IQAは,トレーニングフリー手法と比較して最先端(SOTA)性能を実現し,クロスデータセットシナリオにおけるトレーニングベース手法と比較して競合性能が向上した。
- 参考スコア(独自算出の注目度): 57.10083003305353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image quality assessment (IQA) serves as the golden standard for all models' performance in nearly all computer vision fields. However, it still suffers from poor out-of-distribution generalization ability and expensive training costs. To address these problems, we propose Dog-IQA, a standard-guided zero-shot mix-grained IQA method, which is training-free and utilizes the exceptional prior knowledge of multimodal large language models (MLLMs). To obtain accurate IQA scores, namely scores consistent with humans, we design an MLLM-based inference pipeline that imitates human experts. In detail, Dog-IQA applies two techniques. First, Dog-IQA objectively scores with specific standards that utilize MLLM's behavior pattern and minimize the influence of subjective factors. Second, Dog-IQA comprehensively takes local semantic objects and the whole image as input and aggregates their scores, leveraging local and global information. Our proposed Dog-IQA achieves state-of-the-art (SOTA) performance compared with training-free methods, and competitive performance compared with training-based methods in cross-dataset scenarios. Our code will be available at https://github.com/Kai-Liu001/Dog-IQA.
- Abstract(参考訳): 画像品質評価(IQA)は、ほぼ全てのコンピュータビジョン分野において、全てのモデルのパフォーマンスの黄金の標準となる。
しかしそれでも、流通外一般化能力の貧弱さと高価なトレーニングコストに悩まされている。
このような問題に対処するため,マルチモーダル大言語モデル (MLLM) の例外的事前知識を利用する標準誘導ゼロショット混合IQA法であるDog-IQAを提案する。
正確なIQAスコアを得るためには、人間の専門家を模倣したMLLMベースの推論パイプラインを設計する。
詳しくは、Dog-IQAが2つのテクニックを適用している。
第一に、Dog-IQAはMLLMの行動パターンを活用し、主観的要因の影響を最小限に抑える特定の基準で客観的に得点する。
第二に、Dog-IQAは局所的意味オブジェクトと全体像を総合的に入力として取り、そのスコアを集約し、局所的およびグローバルな情報を活用する。
提案したDog-IQAは,トレーニングフリー手法と比較して最先端(SOTA)性能を実現し,クロスデータセットシナリオにおけるトレーニングベース手法と比較して競合性能が向上した。
私たちのコードはhttps://github.com/Kai-Liu001/Dog-IQA.comで公開されます。
関連論文リスト
- Boosting CLIP Adaptation for Image Quality Assessment via Meta-Prompt Learning and Gradient Regularization [55.09893295671917]
本稿では,Gdient-Regulated Meta-Prompt IQA Framework (GRMP-IQA)を紹介する。
GRMP-IQAはMeta-Prompt事前学習モジュールとQuality-Aware Gradient Regularizationの2つの主要なモジュールから構成されている。
5つの標準BIQAデータセットの実験は、限られたデータ設定下での最先端BIQA手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models [28.194638379354252]
本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダルな大規模言語モデルを利用することで、詳細な言語ベースの人間のような画像品質の評価を可能にする。
これらの結果はマルチモーダルIQA法の研究の可能性を示している。
論文 参考訳(メタデータ) (2023-12-14T14:10:02Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Task-Specific Normalization for Continual Learning of Blind Image
Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。
このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。
我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。
最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文 参考訳(メタデータ) (2021-07-28T15:21:01Z) - MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment [73.55944459902041]
本稿では,深層メタラーニングに基づく非参照IQA尺度を提案する。
まず、様々な歪みに対してNR-IQAタスクを収集する。
次にメタラーニングを用いて、多彩な歪みによって共有される事前知識を学習する。
大規模な実験により、提案された計量は最先端の技術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-04-11T23:36:36Z) - DeepFL-IQA: Weak Supervision for Deep IQA Feature Learning [8.035521056416242]
人工歪み画像のIQAに適した特徴を学習するための新しいIQAデータセットと弱い教師付き特徴学習手法を提案する。
データセットであるKADIS-700kは、14万枚の原像と25種類の歪みがあり、合計で700kの歪んだバージョンで構成されている。
提案手法はDeepFL-IQAと呼ばれ,他の特徴に基づくノン参照IQA法よりも優れており,KADID-10k上の全参照IQA法よりも優れている。
論文 参考訳(メタデータ) (2020-01-20T15:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。