論文の概要: Exploring Opinion-unaware Video Quality Assessment with Semantic
Affinity Criterion
- arxiv url: http://arxiv.org/abs/2302.13269v1
- Date: Sun, 26 Feb 2023 08:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:04:30.210300
- Title: Exploring Opinion-unaware Video Quality Assessment with Semantic
Affinity Criterion
- Title(参考訳): セマンティック親和性基準を用いた音声品質評価の検討
- Authors: Haoning Wu, Liang Liao, Jingwen Hou, Chaofeng Chen, Erli Zhang, Annan
Wang, Wenxiu Sun, Qiong Yan, Weisi Lin
- Abstract要約: コントラッシブ言語画像事前学習モデルにおけるテキストプロンプトを用いた意見認識型VQAに対する明示的セマンティック親和性指標を提案する。
また、ガウス正規化とシグモイド再スケーリング戦略を通じて、異なる伝統的な低レベル自然度指数を集約する。
The proposed Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA)は、既存の意見不明のVQA手法を少なくとも20%改善した。
- 参考スコア(独自算出の注目度): 52.07084862209754
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent learning-based video quality assessment (VQA) algorithms are expensive
to implement due to the cost of data collection of human quality opinions, and
are less robust across various scenarios due to the biases of these opinions.
This motivates our exploration on opinion-unaware (a.k.a zero-shot) VQA
approaches. Existing approaches only considers low-level naturalness in spatial
or temporal domain, without considering impacts from high-level semantics. In
this work, we introduce an explicit semantic affinity index for opinion-unaware
VQA using text-prompts in the contrastive language-image pre-training (CLIP)
model. We also aggregate it with different traditional low-level naturalness
indexes through gaussian normalization and sigmoid rescaling strategies.
Composed of aggregated semantic and technical metrics, the proposed Blind
Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric
Aggregation (BUONA-VISTA) outperforms existing opinion-unaware VQA methods by
at least 20% improvements, and is more robust than opinion-aware approaches.
- Abstract(参考訳): 近年の学習に基づくビデオ品質評価(VQA)アルゴリズムは、人的品質意見のデータ収集コストのため実装に費用がかかり、これらの意見のバイアスのため、様々なシナリオにおいて堅牢性が低い。
これは、意見不明(すなわちゼロショット)なVQAアプローチの探索を動機付けます。
既存のアプローチでは、空間領域や時間領域における低レベルの自然性のみを考慮し、高レベルの意味論の影響を考慮しない。
本研究では,言語画像事前学習(CLIP)モデルにおけるテキストプロンプトを用いた意見認識型VQAに対する明示的セマンティック親和性指標を提案する。
また,ガウス正規化とsgmoid再スケーリング戦略を通じて,従来の低レベル自然性指標を集約する。
Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA) は、セマンティック・テクニカル・メトリック・アグリゲーション(Semantic and Technical Metric Aggregation)によって提案された。
関連論文リスト
- CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - KNVQA: A Benchmark for evaluation knowledge-based VQA [8.602776661652083]
大きな視覚言語モデル(LVLM)は、視覚システムや言語システムにおいて、その強い知覚と推論能力のために大きな進歩を遂げている。
LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。
マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。
論文 参考訳(メタデータ) (2023-11-21T14:39:18Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。