論文の概要: Q-Adapt: Adapting LMM for Visual Quality Assessment with Progressive Instruction Tuning
- arxiv url: http://arxiv.org/abs/2504.01655v1
- Date: Wed, 02 Apr 2025 12:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:19:32.567487
- Title: Q-Adapt: Adapting LMM for Visual Quality Assessment with Progressive Instruction Tuning
- Title(参考訳): Q-Adapt: プログレッシブインストラクションチューニングによる視覚品質評価のためのLMM適応
- Authors: Yiting Lu, Xin Li, Haoning Wu, Bingchen Li, Weisi Lin, Zhibo Chen,
- Abstract要約: そこで本研究では,Q-Adaptという,知覚指向型命令チューニングのための新しいパラダイムを提案する。
提案したQ-Adaptは、軽量な視覚的品質評価器を実現し、同等の性能を示す。
- 参考スコア(独自算出の注目度): 49.07442840323135
- License:
- Abstract: The rapid advancement of Large Multi-modal Foundation Models (LMM) has paved the way for the possible Explainable Image Quality Assessment (EIQA) with instruction tuning from two perspectives: overall quality explanation, and attribute-wise perception answering. However, existing works usually overlooked the conflicts between these two types of perception explanations during joint instruction tuning, leading to insufficient perception understanding. To mitigate this, we propose a new paradigm for perception-oriented instruction tuning, i.e., Q-Adapt, which aims to eliminate the conflicts and achieve the synergy between these two EIQA tasks when adapting LMM, resulting in enhanced multi-faceted explanations of IQA. Particularly, we propose a progressive instruction tuning strategy by dividing the adaption process of LMM for EIQA into two stages, where the first stage empowers the LMM with universal perception knowledge tailored for two tasks using an efficient transfer learning strategy, i.e., LoRA, and the second stage introduces the instruction-adaptive visual prompt tuning to dynamically adapt visual features for the different instructions from two tasks. In this way, our proposed Q-Adapt can achieve a lightweight visual quality evaluator, demonstrating comparable performance and, in some instances, superior results across perceptual-related benchmarks and commonly-used IQA databases. The source code is publicly available at https://github.com/yeppp27/Q-Adapt.
- Abstract(参考訳): LMM(Large Multi-modal Foundation Models)の急速な進歩により、説明可能な画像品質評価(EIQA)が可能になった。
しかし、既存の研究は通常、これらの2種類の知覚的説明の相違を見落とし、共同指導の調律中に認識的理解が不十分になった。
そこで本研究では,LMM の適応において,この2つの EIQA タスク間の相乗効果を実現し,IQA の多面的説明の強化を実現することを目的とした,知覚指向型命令チューニングのための新しいパラダイム Q-Adapt を提案する。
特に,EIQAのためのLMMの適応過程を2段階に分割し,第1段階は効率的な伝達学習戦略,すなわちLoRAを用いて2つのタスクに適した普遍的な認識知識をLMMに付与し,第2段階は2つのタスクから異なる命令に対して視覚的特徴を動的に適応させる命令適応型視覚プロンプトチューニングを導入する。
このようにして、提案したQ-Adaptは、同等の性能を示し、場合によっては知覚関連ベンチマークや一般的に使用されるIQAデータベースよりも優れた結果が得られる。
ソースコードはhttps://github.com/yeppp27/Q-Adapt.comで公開されている。
関連論文リスト
- Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs? [48.41029452721923]
視覚言語モデル(VLM)は、視覚的質問応答(VQA)や画像キャプションといったタスクにおいて印象的である。
画像に多段階推論を適用する能力は、モダリティの不均衡や脆さの知覚を引き起こす。
論文 参考訳(メタデータ) (2025-01-05T21:36:38Z) - Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers [7.7705926659081275]
VerifierQは、オフラインQ学習を検証モデルに統合する新しいアプローチである。
LLMにQ-learningを適用する上での3つの課題に対処する。
本手法は,並列Q値計算と学習効率の向上を実現する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment [23.48816491333345]
画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。
既存の手法は、異なる学習目的のために、これらのタスクを独立して扱うのが一般的である。
本研究では,2つのタスクの一般的な認識を学習するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
論文 参考訳(メタデータ) (2024-06-03T07:40:10Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Weakly Supervised Multi-task Learning for Concept-based Explainability [3.441021278275805]
マルチタスク学習を活用して,意思決定タスクの予測を共同で学習するニューラルネットワークを訓練する。
克服すべき主な課題は、コンセプトラベルの不足と共同学習の2つです。
不均一な品質のラベルを組み合わせることで、両タスクのパフォーマンスを向上させることができることを示す。
論文 参考訳(メタデータ) (2021-04-26T10:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。