論文の概要: Q-DeepSight: Incentivizing Thinking with Images for Image Quality Assessment and Refinement
- arxiv url: http://arxiv.org/abs/2604.16858v1
- Date: Sat, 18 Apr 2026 06:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.204997
- Title: Q-DeepSight: Incentivizing Thinking with Images for Image Quality Assessment and Refinement
- Title(参考訳): Q-DeepSight:画像品質評価とリファインメントのためのイメージによる思考のインセンティブ
- Authors: Xudong Li, Jiaxi Tan, Ziyin Zhou, Yan Zhong, Zihao Huang, Jingyuan Zheng, Yan Zhang, Xiawu Zheng, Rongrong Ji,
- Abstract要約: 我々は、この人間のようなプロセスをエミュレートする思考とイメージのフレームワークであるQ-DeepSightを提案する。
Q-DeepSightは、自然、復元、AI生成コンテンツなど、さまざまなベンチマークで最先端のパフォーマンスを実現している。
本稿では,Q-DeepSight の診断が反復画像強調を導くトレーニングフリーフレームワークであるPerceptual-in-Generation (PiG) を用いて,その実用的価値を示す。
- 参考スコア(独自算出の注目度): 58.15004031934379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Quality Assessment (IQA) models are increasingly deployed as perceptual critics to guide generative models and image restoration. This role demands not only accurate scores but also actionable, localized feedback. However, current MLLM-based methods adopt a single-look, language-only paradigm, which departs from human evidence-seeking judgment and yields weakly grounded rationales, limiting their reliability for in-the-loop refinement. We propose Q-DeepSight, a think-with-image framework that emulates this human-like process. It performs interleaved Multimodal Chain-of-Thought (iMCoT) with tool-augmented evidence acquisition (e.g., crop-and-zoom) to explicitly determine where quality degrades and why. To train these long iMCoT trajectories via reinforcement learning, we introduce two techniques: Perceptual Curriculum Reward (PCR) to mitigate reward sparsity and Evidence Gradient Filtering (EGF) to improve credit assignment for visually-grounded reasoning. Q-DeepSight achieves state-of-the-art performance across diverse benchmarks, including natural, restored, and AI-generated content. Furthermore, we demonstrate its practical value with Perceptual-in-Generation (PiG), a training-free framework where Q-DeepSight's diagnoses guide iterative image enhancement, effectively closing the loop between assessment and refinement.
- Abstract(参考訳): 画像品質評価(IQA)モデルは、生成モデルと画像復元を導く知覚的批評家として、ますます多くデプロイされている。
この役割は正確なスコアだけでなく、行動可能な局所的なフィードバックも要求する。
しかし、現在のMLLMベースの手法では、人間のエビデンスを探究する判断から逸脱し、根拠が弱く、ループ内改良の信頼性が制限される、単一外観の言語のみのパラダイムが採用されている。
我々は、この人間のようなプロセスをエミュレートする思考とイメージのフレームワークであるQ-DeepSightを提案する。
iMCoT(Multimodal Chain-of-Thought)とツール強化されたエビデンス(例えば、作物と動物)をインターリーブして、品質の低下と理由を明確に判断する。
これらの長いiMCoTトラジェクトリを強化学習により訓練するために、報酬空間を緩和するための知覚カリキュラムリワード(PCR)と、視覚的推論のためのクレジット割り当てを改善するためのエビデンスグラディエントフィルタ(EGF)の2つの手法を導入する。
Q-DeepSightは、自然、復元、AI生成コンテンツなど、さまざまなベンチマークで最先端のパフォーマンスを実現している。
さらに,Q-DeepSight が反復画像強調を導出し,評価と改善のループを効果的に閉じる学習自由フレームワークであるPerceptual-in-Generation (PiG) を用いて,その実用価値を実証した。
関連論文リスト
- A Sanity Check on Composed Image Retrieval [91.95275287747499]
Composed Image Retrieval (CIR) は、参照画像からなるクエリと、所望の修正を指定する相対的なキャプションに基づいて、ターゲット画像を取得することを目的としている。
FISD(Fully-Informed Semantically-Diverse benchmark)は、参照ターゲット画像対の変数を正確に制御するために生成モデルを利用する。
本稿では,対話型シナリオにおける既存モデルの可能性を探るためのマルチラウンドエージェント評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T15:52:22Z) - Redefining Quality Criteria and Distance-Aware Score Modeling for Image Editing Assessment [28.60763581601123]
IEQAはマルチモーダル入力と多次元評価よりも複雑な推論を必要とする。
本研究では,評価基準とスコア表現を共同で学習する統合フレームワークであるDefine-and-Score Image Editing Quality Assessment (DS-IEQA)を提案する。
2026 NTIRE X-AIGC Quality Assessment Track 2の4位にランクインした。
論文 参考訳(メタデータ) (2026-04-14T01:05:41Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - CDI: Blind Image Restoration Fidelity Evaluation based on Consistency with Degraded Image [6.664998519426364]
本稿では,Blind Image Restoration (BIR) 法における非特異性・劣化不確定問題について再検討する。
本稿では,CDI(Consistency with Degraded Image)を算出し,忠実度を評価するBIR IQAシステムを提案する。
さらに,参照画像のないBIR忠実度評価が可能な参照非依存CDIを提案する。
論文 参考訳(メタデータ) (2025-01-24T06:05:47Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Learning Conditional Knowledge Distillation for Degraded-Reference Image
Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。
DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。
私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文 参考訳(メタデータ) (2021-08-18T02:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。