論文の概要: QualiRAG: Retrieval-Augmented Generation for Visual Quality Understanding
- arxiv url: http://arxiv.org/abs/2601.18195v1
- Date: Mon, 26 Jan 2026 06:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.703183
- Title: QualiRAG: Retrieval-Augmented Generation for Visual Quality Understanding
- Title(参考訳): QualiRAG: ビジュアル品質理解のための検索拡張生成
- Authors: Linhan Cao, Wei Sun, Weixia Zhang, Xiangyang Zhu, Kaiwei Zhang, Jun Jia, Dandan Zhu, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: 視覚的品質評価は、予測から解釈可能な品質理解へとシフトしている。
現在のアプローチは、教師付き微調整や強化学習に頼っている。
本稿では,視覚的品質知覚のための大規模マルチモーダルモデルの潜在知覚的知識を体系的に活用するフレームワークであるVbfQualiRAGを提案する。
- 参考スコア(独自算出の注目度): 80.66379018208568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual quality assessment (VQA) is increasingly shifting from scalar score prediction toward interpretable quality understanding -- a paradigm that demands \textit{fine-grained spatiotemporal perception} and \textit{auxiliary contextual information}. Current approaches rely on supervised fine-tuning or reinforcement learning on curated instruction datasets, which involve labor-intensive annotation and are prone to dataset-specific biases. To address these challenges, we propose \textbf{QualiRAG}, a \textit{training-free} \textbf{R}etrieval-\textbf{A}ugmented \textbf{G}eneration \textbf{(RAG)} framework that systematically leverages the latent perceptual knowledge of large multimodal models (LMMs) for visual quality perception. Unlike conventional RAG that retrieves from static corpora, QualiRAG dynamically generates auxiliary knowledge by decomposing questions into structured requests and constructing four complementary knowledge sources: \textit{visual metadata}, \textit{subject localization}, \textit{global quality summaries}, and \textit{local quality descriptions}, followed by relevance-aware retrieval for evidence-grounded reasoning. Extensive experiments show that QualiRAG achieves substantial improvements over open-source general-purpose LMMs and VQA-finetuned LMMs on visual quality understanding tasks, and delivers competitive performance on visual quality comparison tasks, demonstrating robust quality assessment capabilities without any task-specific training. The code will be publicly available at https://github.com/clh124/QualiRAG.
- Abstract(参考訳): 視覚品質評価(VQA)は、スカラースコア予測から解釈可能な品質理解へと、ますますシフトしつつある。
現在のアプローチでは、トレーニング済みの命令データセットの教師付き微調整や強化学習に頼っている。
これらの課題に対処するために、視覚的品質知覚のために大規模なマルチモーダルモデル(LMM)の潜在知覚知識を体系的に活用する、textbf{QualiRAG}, a \textbf{R}etrieval-\textbf{A}ugmented \textbf{G}eneration \textbf{G}eneration \textbf{(RAG)} フレームワークを提案する。
静的コーパスから抽出される従来のRAGとは異なり、QuariRAGは、質問を構造化された要求に分解し、4つの補完的な知識ソースを構築することで、動的に補助的な知識を生成する。
広汎な実験により、QuariRAGは、視覚的品質理解タスクにおいて、オープンソースの汎用LMMとVQAファクチュニングLMMよりも大幅に改善され、視覚的品質比較タスクにおいて競合性能を提供し、タスク固有のトレーニングを伴わずに、堅牢な品質評価能力を実証する。
コードはhttps://github.com/clh124/QualiRAG.comで公開されている。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Scaling-up Perceptual Video Quality Assessment [54.691252495691955]
マルチモーダル・イン・ループ型VQAマルチモーダル・インストラクション・データベースを効率的に構築する方法を示す。
我々の焦点は、微細なVQAの知識を提供するために、多くのコンテキスト内インストラクションデータを持つ技術と美的品質の次元である。
この結果から,我々のモデルは,品質理解と評価の両タスクにおいて,最先端のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-05-28T16:24:52Z) - Fine-Grained Knowledge Structuring and Retrieval for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。
外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。
まず,マルチモーダルデータ断片からなるきめ細かい知識ユニットを紹介する。
第2に,細粒度検索をMLLMとシームレスに統合する知識単位検索拡張生成フレームワーク(KU-RAG)を提案する。
論文 参考訳(メタデータ) (2025-02-28T11:25:38Z) - TrustRAG: An Information Assistant with Retrieval Augmented Generation [73.84864898280719]
TrustRAGは、インデックス付け、検索、生成という3つの視点から、acRAGを強化する新しいフレームワークである。
我々はTrustRAGフレームワークをオープンソース化し、抜粋ベースの質問応答タスク用に設計されたデモスタジオを提供する。
論文 参考訳(メタデータ) (2025-02-19T13:45:27Z) - SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。
SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。
高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文 参考訳(メタデータ) (2024-03-17T18:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。