論文の概要: R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2603.10578v1
- Date: Wed, 11 Mar 2026 09:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.876394
- Title: R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment
- Title(参考訳): R4-CGQA:コンピュータグラフィックス画像品質評価のための検索型視覚言語モデル
- Authors: Zhuangzi Li, Jian Jin, Shilv Cai, Weisi Lin,
- Abstract要約: ユーザの視点からCG品質の6つの重要な次元を特定し,対応する品質記述を伴う3500個のCG画像のデータセットを構築した。
各記述は、選択された次元に沿ってCGスタイル、内容、知覚された品質をカバーしている。
視覚言語モデルのCG品質評価能力を効果的に向上する2ストリーム検索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.214070637335205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Immersive Computer Graphics (CGs) rendering has become ubiquitous in modern daily life. However, comprehensively evaluating CG quality remains challenging for two reasons: First, existing CG datasets lack systematic descriptions of rendering quality; and second existing CG quality assessment methods cannot provide reasonable text-based explanations. To address these issues, we first identify six key perceptual dimensions of CG quality from the user perspective and construct a dataset of 3500 CG images with corresponding quality descriptions. Each description covers CG style, content, and perceived quality along the selected dimensions. Furthermore, we use a subset of the dataset to build several question-answer benchmarks based on the descriptions in order to evaluate the responses of existing Vision Language Models (VLMs). We find that current VLMs are not sufficiently accurate in judging fine-grained CG quality, but that descriptions of visually similar images can significantly improve a VLM's understanding of a given CG image. Motivated by this observation, we adopt retrieval-augmented generation and propose a two-stream retrieval framework that effectively enhances the CG quality assessment capabilities of VLMs. Experiments on several representative VLMs demonstrate that our method substantially improves their performance on CG quality assessment.
- Abstract(参考訳): Immersive Computer Graphics (CG)レンダリングは現代の日常生活で広く普及している。
しかし、CG品質を総合的に評価することは、2つの理由により困難である: 既存のCGデータセットは、レンダリング品質の体系的な記述を欠いている; 既存のCG品質評価手法は、合理的なテキストベースの説明を提供することができない。
これらの課題に対処するために、まずユーザの視点からCG品質の6つの重要な知覚次元を特定し、対応する品質記述を伴う3500個のCG画像のデータセットを構築する。
各記述は、選択された次元に沿ってCGスタイル、内容、知覚された品質をカバーしている。
さらに、既存の視覚言語モデル(VLM)の応答を評価するために、データセットのサブセットを用いて、記述に基づいていくつかの質問応答ベンチマークを構築する。
現在のVLMは細粒度CG画像の品質を判断するには十分ではないが、視覚的に類似した画像の記述は、与えられたCG画像に対するVLMの理解を著しく向上させることができる。
そこで本研究では,VLMのCG品質評価能力を効果的に向上する2ストリーム検索フレームワークを提案する。
いくつかの代表的VLM実験により,本手法はCG品質評価における性能を大幅に向上させることを示した。
関連論文リスト
- ViDA-UGC: Detailed Image Quality Analysis via Visual Distortion Assessment for UGC Images [27.448161376085658]
本研究では,VDA-UGCと呼ばれる画像のための大規模な視覚歪評価インストラクションデータセットを構築した。
このデータセットは、人間の主題アノテーションとChain-of-Thoughtフレームワークを含む歪み指向パイプラインによって構築される。
我々は、ViDA-UGCから対応する6,149の質問応答対を持つ476の画像を選択し、専門家チームを招待して、GPT生成情報の正確性と品質を保証する。
ViDA-UGCおよびCoTフレームワークが画像品質解析能力の維持に有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-08-18T04:02:58Z) - No-Reference Point Cloud Quality Assessment via Graph Convolutional Network [89.12589881881082]
3次元(3D)ポイントクラウドは、新しいビジュアルメディアフォーマットとして、消費者にますます好まれている。
ポイントクラウドは、必然的に、マルチメディア通信システムによる品質劣化と情報損失に悩まされる。
マルチビュー2次元投影画像の相互依存関係を特徴付けるために,GCN(Graph Convolutional Network)を用いた新しい非参照PCQA手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T11:39:05Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model [56.03592388332793]
主観的・客観的な品質評価の観点からAIGC-VQA問題を考察する。
主観的観点からは,2,808本のAIGCビデオからなる大規模映像品質評価(LGVQ)データセットを構築した。
我々は,AIGCビデオの知覚的品質を,空間的品質,時間的品質,テキスト・ビデオアライメントの3つの重要な次元から評価した。
本稿では,AIGCビデオの多次元品質を正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-31T07:54:26Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。