論文の概要: ME-IQA: Memory-Enhanced Image Quality Assessment via Re-Ranking
- arxiv url: http://arxiv.org/abs/2603.20785v1
- Date: Sat, 21 Mar 2026 12:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.08233
- Title: ME-IQA: Memory-Enhanced Image Quality Assessment via Re-Ranking
- Title(参考訳): ME-IQA:リランキングによるメモリ向上画像品質評価
- Authors: Kanglong Fan, Tianhe Wu, Wen Wen, Jianzhao Liu, Le Yang, Yabin Zhang, Yiting Liao, Junlin Li, Li Zhang,
- Abstract要約: 本稿では,テスト時間メモリ強化型再ランクフレームワークME-IQAを紹介する。
メモリバンクを構築し、推論サマリーを使用してセマンティックおよび知覚的に一致した隣人を検索する。
ゲートリフレクションを実行し、メモリを統合して将来の意思決定を改善する。
- 参考スコア(独自算出の注目度): 25.561100902733326
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reasoning-induced vision-language models (VLMs) advance image quality assessment (IQA) with textual reasoning, yet their scalar scores often lack sensitivity and collapse to a few values, so-called discrete collapse. We introduce ME-IQA, a plug-and-play, test-time memory-enhanced re-ranking framework. It (i) builds a memory bank and retrieves semantically and perceptually aligned neighbors using reasoning summaries, (ii) reframes the VLM as a probabilistic comparator to obtain pairwise preference probabilities and fuse this ordinal evidence with the initial score under Thurstone's Case V model, and (iii) performs gated reflection and consolidates memory to improve future decisions. This yields denser, distortion-sensitive predictions and mitigates discrete collapse. Experiments across multiple IQA benchmarks show consistent gains over strong reasoning-induced VLM baselines, existing non-reasoning IQA methods, and test-time scaling alternatives.
- Abstract(参考訳): 推論による視覚言語モデル(VLM)は、テキスト推論による画像品質評価(IQA)を先進的に行うが、スカラースコアは感度に欠け、いくつかの値に崩壊することが多く、いわゆる離散崩壊である。
プラグアンドプレイ,テストタイムのメモリ拡張フレームワークであるME-IQAを紹介する。
それ
i) メモリバンクを構築し、推論サマリーを用いて、セマンティックかつ知覚的に一致した隣人を検索する。
(二)VLMを確率的比較器として再構成し、ペアの選好確率を得、サーストンのケースVモデルに基づく初期スコアとこの順序的証拠を融合させ、
(iii) ゲートリフレクションを実行し、メモリを集約し、将来の意思決定を改善する。
これにより、より密度が高く歪みに敏感な予測が得られ、離散的な崩壊を緩和する。
複数のIQAベンチマークの実験では、強い推論によるVLMベースライン、既存の非推論IQAメソッド、テスト時間スケーリングの代替よりも一貫した利得を示している。
関連論文リスト
- Fix Before Search: Benchmarking Agentic Query Visual Pre-processing in Multimodal Retrieval-augmented Generation [47.96044455071274]
V-QPP-Benchは、Visual Queryの事前処理に特化した最初のベンチマークである。
視覚障害は、検索リコールとエンド・ツー・エンドのMRAGパフォーマンスの両方を著しく低下させる。
市販のMLLMは、特別な訓練を受けずにツールの選択とパラメータ予測に苦労する。
教師付き微調整により、コンパクトモデルはより大きなプロプライエタリモデルと同等または優れた性能を達成できる。
論文 参考訳(メタデータ) (2026-02-13T18:39:48Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - Zoom-IQA: Image Quality Assessment with Reliable Region-Aware Reasoning [32.30800226412995]
VLMに基づくIQAモデルであるZoom-IQAを導入し、重要な認知行動を明確にエミュレートする。
Zoom-IQAは、堅牢性、説明可能性、一般化の向上を実現する。
画像復元などの下流タスクへの応用は、Zoom-IQAの有効性をさらに示している。
論文 参考訳(メタデータ) (2026-01-06T11:00:17Z) - Revisiting MLLM Based Image Quality Assessment: Errors and Remedy [23.918454005000328]
重要な課題は、MLLMの離散トークン出力とIQAタスクで要求される品質スコアの連続的な性質との間の固有のミスマッチから生じる。
軽量回帰モジュールとIQA固有のスコアトークンをMLLMパイプラインに組み込んだQ-Scorerを提案する。
Q-Scorerは、複数のIQAベンチマークで最先端のパフォーマンスを実現し、混合データセットに最適化し、他のメソッドと組み合わせることでさらに改善される。
論文 参考訳(メタデータ) (2025-11-11T04:08:44Z) - Uncertainty Quantification for Regression using Proper Scoring Rules [76.24649098854219]
CRPS,対数,2乗誤差,2次スコアなど,適切なスコアリングルールに基づく回帰のための統一的UQフレームワークを提案する。
実測パラメトリックな仮定に基づく不確実性尺度に対する閉形式式を導出し、モデルのアンサンブルを用いてそれらを推定する方法を示す。
合成および実世界の回帰データセットに対する広範な評価は、信頼性の高いUQ尺度を選択するためのガイダンスを提供する。
論文 参考訳(メタデータ) (2025-09-30T17:52:12Z) - AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning [50.34205095371895]
映像品質評価は、知覚的品質劣化を客観的に定量化することを目的としている。
既存のVQAモデルには2つの限界がある。
推論に基づくVQAフレームワークである textbfVQAThinker を提案する。
論文 参考訳(メタデータ) (2025-08-08T06:16:23Z) - SoftPQ: Robust Instance Segmentation Evaluation via Soft Matching and Tunable Thresholds [0.0]
フレキシブルかつ解釈可能なインスタンスセグメンテーションメトリックであるSoftPQを提案する。
我々は、既存のメトリクスが見落としているセグメンテーション品質の有意義な違いをSoftPQが捉えていることを示す。
論文 参考訳(メタデータ) (2025-05-17T22:08:33Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation [20.178644251662316]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。