論文の概要: CLiF-VQA: Enhancing Video Quality Assessment by Incorporating High-Level
Semantic Information related to Human Feelings
- arxiv url: http://arxiv.org/abs/2311.07090v1
- Date: Mon, 13 Nov 2023 05:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:24:40.363809
- Title: CLiF-VQA: Enhancing Video Quality Assessment by Incorporating High-Level
Semantic Information related to Human Feelings
- Title(参考訳): CLiF-VQA:人間の感情に関連する高レベルセマンティック情報の導入による映像品質評価の強化
- Authors: Yachun Mi, Yu Li, Yan Shu, Chen Hui, Puchao Zhou, Shaohui Liu
- Abstract要約: 映像品質評価(VQA)は、人間の視覚システム(HVS)による映像品質の知覚過程をシミュレートすることを目的とする。
現在のVQA研究の大部分は、ビデオの空間的および時間的領域における様々な歪みを捉えることに焦点を当てている。
本稿では,人間の感情と映像の空間的特徴の両方を考慮したCLiF-VQAを提案する。
- 参考スコア(独自算出の注目度): 19.344063056033526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Quality Assessment (VQA) aims to simulate the process of perceiving
video quality by the human visual system (HVS). The judgments made by HVS are
always influenced by human subjective feelings. However, most of the current
VQA research focuses on capturing various distortions in the spatial and
temporal domains of videos, while ignoring the impact of human feelings. In
this paper, we propose CLiF-VQA, which considers both features related to human
feelings and spatial features of videos. In order to effectively extract
features related to human feelings from videos, we explore the consistency
between CLIP and human feelings in video perception for the first time.
Specifically, we design multiple objective and subjective descriptions closely
related to human feelings as prompts. Further we propose a novel CLIP-based
semantic feature extractor (SFE) which extracts features related to human
feelings by sliding over multiple regions of the video frame. In addition, we
further capture the low-level-aware features of the video through a spatial
feature extraction module. The two different features are then aggregated
thereby obtaining the quality score of the video. Extensive experiments show
that the proposed CLiF-VQA exhibits excellent performance on several VQA
datasets.
- Abstract(参考訳): 映像品質評価(VQA)は、人間の視覚システム(HVS)による映像品質の知覚過程をシミュレートすることを目的としている。
HVSによる判断は、常に人間の主観的感情に影響される。
しかしながら、現在のVQA研究の大部分は、人間の感情の影響を無視しながら、ビデオの空間的および時間的領域における様々な歪みを捉えることに焦点を当てている。
本稿では,人間の感情と映像の空間的特徴の両方を考慮したCLiF-VQAを提案する。
映像から人間の感情に関連する特徴を効果的に抽出するために,ビデオ知覚におけるCLIPと人間の感情の一貫性を初めて探求する。
具体的には、人間の感情と密接に関連する複数の客観的、主観的記述をプロンプトとして設計する。
また,ビデオフレームの複数の領域を滑り越えることで,人間の感情に関連する特徴を抽出する新しいCLIPベースの意味特徴抽出器(SFE)を提案する。
さらに,映像の低レベルな特徴を空間的特徴抽出モジュールによってさらに把握する。
そして、2つの異なる特徴を集約し、ビデオの品質スコアを得る。
大規模な実験により、提案したCLiF-VQAは、いくつかのVQAデータセット上で優れた性能を示すことが示された。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - FunQA: Towards Surprising Video Comprehension [64.58663825184958]
本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
論文 参考訳(メタデータ) (2023-06-26T17:59:55Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Exploring the Effectiveness of Video Perceptual Representation in Blind
Video Quality Assessment [55.65173181828863]
表現の図形的形態を記述することにより、時間的歪みを測定するための時間的知覚品質指標(TPQI)を提案する。
実験の結果,TPQIは主観的時間的品質を予測する効果的な方法であることがわかった。
論文 参考訳(メタデータ) (2022-07-08T07:30:51Z) - Use of Affective Visual Information for Summarization of Human-Centric
Videos [13.273989782771556]
本研究では、人間中心のビデオに対する感情情報豊かに教師付きビデオ要約タスクについて検討する。
まず、RECOLAデータセット上で視覚的入力駆動型感情認識モデル(CER-NET)を訓練し、感情特性を推定する。
次に,CER-NETの感情特性と高レベル表現を視覚情報と統合し,提案した情緒的映像要約アーキテクチャ(AVSUM)を定義する。
論文 参考訳(メタデータ) (2021-07-08T11:46:04Z) - DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA [24.910132013543947]
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。
我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
論文 参考訳(メタデータ) (2020-05-07T09:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。