論文の概要: Q-Adapt: Adapting LMM for Visual Quality Assessment with Progressive Instruction Tuning
- arxiv url: http://arxiv.org/abs/2504.01655v1
- Date: Wed, 02 Apr 2025 12:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 19:59:19.345782
- Title: Q-Adapt: Adapting LMM for Visual Quality Assessment with Progressive Instruction Tuning
- Title(参考訳): Q-Adapt: プログレッシブインストラクションチューニングによる視覚品質評価のためのLMM適応
- Authors: Yiting Lu, Xin Li, Haoning Wu, Bingchen Li, Weisi Lin, Zhibo Chen,
- Abstract要約: そこで本研究では,Q-Adaptという,知覚指向型命令チューニングのための新しいパラダイムを提案する。
提案したQ-Adaptは、軽量な視覚的品質評価器を実現し、同等の性能を示す。
- 参考スコア(独自算出の注目度): 49.07442840323135
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The rapid advancement of Large Multi-modal Foundation Models (LMM) has paved the way for the possible Explainable Image Quality Assessment (EIQA) with instruction tuning from two perspectives: overall quality explanation, and attribute-wise perception answering. However, existing works usually overlooked the conflicts between these two types of perception explanations during joint instruction tuning, leading to insufficient perception understanding. To mitigate this, we propose a new paradigm for perception-oriented instruction tuning, i.e., Q-Adapt, which aims to eliminate the conflicts and achieve the synergy between these two EIQA tasks when adapting LMM, resulting in enhanced multi-faceted explanations of IQA. Particularly, we propose a progressive instruction tuning strategy by dividing the adaption process of LMM for EIQA into two stages, where the first stage empowers the LMM with universal perception knowledge tailored for two tasks using an efficient transfer learning strategy, i.e., LoRA, and the second stage introduces the instruction-adaptive visual prompt tuning to dynamically adapt visual features for the different instructions from two tasks. In this way, our proposed Q-Adapt can achieve a lightweight visual quality evaluator, demonstrating comparable performance and, in some instances, superior results across perceptual-related benchmarks and commonly-used IQA databases. The source code is publicly available at https://github.com/yeppp27/Q-Adapt.
- Abstract(参考訳): LMM(Large Multi-modal Foundation Models)の急速な進歩により、説明可能な画像品質評価(EIQA)が可能になった。
しかし、既存の研究は通常、これらの2種類の知覚的説明の相違を見落とし、共同指導の調律中に認識的理解が不十分になった。
そこで本研究では,LMM の適応において,この2つの EIQA タスク間の相乗効果を実現し,IQA の多面的説明の強化を実現することを目的とした,知覚指向型命令チューニングのための新しいパラダイム Q-Adapt を提案する。
特に,EIQAのためのLMMの適応過程を2段階に分割し,第1段階は効率的な伝達学習戦略,すなわちLoRAを用いて2つのタスクに適した普遍的な認識知識をLMMに付与し,第2段階は2つのタスクから異なる命令に対して視覚的特徴を動的に適応させる命令適応型視覚プロンプトチューニングを導入する。
このようにして、提案したQ-Adaptは、同等の性能を示し、場合によっては知覚関連ベンチマークや一般的に使用されるIQAデータベースよりも優れた結果が得られる。
ソースコードはhttps://github.com/yeppp27/Q-Adapt.comで公開されている。
関連論文リスト
- Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs? [48.41029452721923]
視覚言語モデル(VLM)は、視覚的質問応答(VQA)や画像キャプションといったタスクにおいて印象的である。
画像に多段階推論を適用する能力は、モダリティの不均衡や脆さの知覚を引き起こす。
論文 参考訳(メタデータ) (2025-01-05T21:36:38Z) - LLM-based Discriminative Reasoning for Knowledge Graph Question Answering [42.277864969014296]
生成事前学習型トランスフォーマーに基づく大規模言語モデル(LLM)は,知識グラフ質問応答(KGQA)タスクにおいて顕著な性能を発揮している。
しかし、LLMは、生成パラダイムによって引き起こされる幻覚的行動のために、KGQAにおいて、根拠のない部分グラフ計画や推論の結果をしばしば生み出す。
本稿では,KGQA過程を識別サブタスクに再構成するREADSを提案し,各サブタスクの検索空間を単純化する。
論文 参考訳(メタデータ) (2024-12-17T08:07:16Z) - Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment [23.48816491333345]
画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。
既存の手法は、異なる学習目的のために、これらのタスクを独立して扱うのが一般的である。
本研究では,2つのタスクの一般的な認識を学習するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
論文 参考訳(メタデータ) (2024-06-03T07:40:10Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。