Fugu-MT 論文翻訳(概要): EVQAScore: Efficient Video Question Answering Data Evaluation

論文の概要: EVQAScore: Efficient Video Question Answering Data Evaluation

arxiv url: http://arxiv.org/abs/2411.06908v1
Date: Mon, 11 Nov 2024 12:11:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.451598
Title: EVQAScore: Efficient Video Question Answering Data Evaluation
Title（参考訳）: EVQAScore: 効率的なビデオ質問によるデータ評価
Authors: Hao Liang, Zirong Chen, Wentao Zhang,
Abstract要約: 本稿では,ビデオキャプションとビデオQAデータ品質の両方を評価するためにキーワード抽出を利用する参照フリー手法EVQAScoreを紹介する。提案手法は,Kendall相関32.8,Spearman相関42.3,従来のPAC-S++よりも4.7,5.9,動画キャプション評価5.9)。データ選択にEVQAScoreを用いることで、元のデータボリュームのわずか12.5%でSOTA結果を達成し、以前のSOTA手法であるPAC-Sと100%のデータより優れていた。
参考スコア（独自算出の注目度）: 23.812020049901452
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video question-answering (QA) is a core task in video understanding. Evaluating the quality of video QA and video caption data quality for training video large language models (VideoLLMs) is an essential challenge. Although various methods have been proposed for assessing video caption quality, there remains a lack of dedicated evaluation methods for Video QA. To address this gap, we introduce EVQAScore, a reference-free method that leverages keyword extraction to assess both video caption and video QA data quality. Additionally, we incorporate frame sampling and rescaling techniques to enhance the efficiency and robustness of our evaluation, this enables our score to evaluate the quality of extremely long videos. Our approach achieves state-of-the-art (SOTA) performance (32.8 for Kendall correlation and 42.3 for Spearman correlation, 4.7 and 5.9 higher than the previous method PAC-S++) on the VATEX-EVAL benchmark for video caption evaluation. Furthermore, by using EVQAScore for data selection, we achieved SOTA results with only 12.5\% of the original data volume, outperforming the previous SOTA method PAC-S and 100\% of data.
Abstract（参考訳）: ビデオ質問答え(QA)は、ビデオ理解における中核的な課題である。ビデオ大言語モデル(ビデオLLM)の訓練において,ビデオQAとビデオキャプションデータの品質を評価することが不可欠である。ビデオキャプションの品質を評価するための様々な手法が提案されているが、ビデオQAのための専用の評価方法が不足している。このギャップに対処するため,ビデオキャプションとビデオQAデータ品質の両方を評価するためにキーワード抽出を利用する参照フリーのEVQAScoreを導入する。さらに,フレームサンプリングと再スケーリング技術を導入して,評価の効率性とロバスト性を高めることにより,非常に長いビデオの品質を評価することができる。本稿では,ビデオキャプション評価のためのVATEX-EVALベンチマークにおいて,最新技術(SOTA)性能(Kendall相関32.8,Spearman相関42.3,PAC-S++4.7,5.9)を実現する。さらに,データ選択にEVQAScoreを用いることで,従来のSOTA法であるPAC-S法よりも12.5\%,100\%のデータを達成できた。

関連論文リスト

LEHA-CVQAD: Dataset To Enable Generalized Video Quality Assessment of Compression Artifacts [44.95552843771737]
圧縮指向ビデオ品質評価のための6,240クリップからなるLEHA-QADデータセットを提案する。 59のソースビデオは186のプリセット版と1.8Mのペアでエンコードされ、1.5kのレーティングは単一の品質尺度に融合される。また、VQAモデルがいかに高品質な注文を保ったかを定量化する新しい評価指標RDAEを提案する。
論文参考訳（メタデータ） (2025-07-05T10:41:33Z)
VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results [120.95863275142727]
本稿では,ECCV 2024における画像操作の進歩(AIM)ワークショップと共同で開催されている圧縮映像品質評価の課題について述べる。この課題は、様々な圧縮標準の14コーデックで符号化された459本の動画の多様なデータセット上で、VQA法の性能を評価することであった。
論文参考訳（メタデータ） (2024-08-21T20:32:45Z)
Benchmarking AIGC Video Quality Assessment: A Dataset and Unified Model [54.69882562863726]
主観的および客観的品質評価の観点からAIGC-VQA問題を体系的に検討する。我々は,空間的品質,時間的品質,テキスト・ツー・ビデオアライメントの3次元から,AIGCビデオの知覚品質を評価する。本稿では,AIGCビデオの品質を包括的かつ正確に評価するUnify Generated Video Quality Assessment (UGVQ)モデルを提案する。
論文参考訳（メタデータ） (2024-07-31T07:54:26Z)
Highly Efficient No-reference 4K Video Quality Assessment with Full-Pixel Covering Sampling and Training Strategy [23.61467796740852]
No-Reference (NR) VQA法は、参照ビデオの取得が制限されるか、実現不可能な状況において重要な役割を担っている。視聴者の体験を豊かにするために、超高精細な定義(例:4K)でより多くのストリーミングビデオが作成されているため、現在のディープVQA手法は、許容できない計算コストに直面している。本稿では,高効率かつ斬新なNR 4K VQA技術を提案する。
論文参考訳（メタデータ） (2024-07-30T12:10:33Z)
CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文参考訳（メタデータ） (2024-07-06T02:32:28Z)
Towards Explainable In-the-Wild Video Quality Assessment: A Database and a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文参考訳（メタデータ） (2023-05-22T05:20:23Z)
SB-VQA: A Stack-Based Video Quality Assessment Framework for Video Enhancement [0.40777876591043155]
本稿では,ビデオ品質評価(VQA)のためのスタックベースのフレームワークを提案する。拡張ビデオのためのVQAフレームワークの提案に加えて、プロが生成するコンテンツ(PGC)に対するVQAの適用についても検討する。実験により,既存のVQAアルゴリズムをPGCビデオに適用できることが実証された。
論文参考訳（メタデータ） (2023-05-15T07:44:10Z)
Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。 BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文参考訳（メタデータ） (2023-04-28T08:06:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。