論文の概要: Multi-Branch Collaborative Learning Network for Video Quality Assessment in Industrial Video Search
- arxiv url: http://arxiv.org/abs/2502.05924v1
- Date: Sun, 09 Feb 2025 14:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:12.469033
- Title: Multi-Branch Collaborative Learning Network for Video Quality Assessment in Industrial Video Search
- Title(参考訳): 産業ビデオ検索における映像品質評価のためのマルチブランチ協調学習ネットワーク
- Authors: Hengzhu Tang, Zefeng Zhang, Zhiping Li, Zhenyu Zhang, Xing Wu, Li Gao, Suqi Cheng, Dawei Yin,
- Abstract要約: 産業システムでは、低品質のビデオ特性は4つのカテゴリに分類される。
これらの低品質のビデオは、主に学術研究で見過ごされてきた。
本稿では,産業用ビデオ検索システムに適したMulti-Branch Collaborative Network(MBCN)を紹介する。
- 参考スコア(独自算出の注目度): 27.0139421302102
- License:
- Abstract: Video Quality Assessment (VQA) is vital for large-scale video retrieval systems, aimed at identifying quality issues to prioritize high-quality videos. In industrial systems, low-quality video characteristics fall into four categories: visual-related issues like mosaics and black boxes, textual issues from video titles and OCR content, and semantic issues like frame incoherence and frame-text mismatch from AI-generated videos. Despite their prevalence in industrial settings, these low-quality videos have been largely overlooked in academic research, posing a challenge for accurate identification. To address this, we introduce the Multi-Branch Collaborative Network (MBCN) tailored for industrial video retrieval systems. MBCN features four branches, each designed to tackle one of the aforementioned quality issues. After each branch independently scores videos, we aggregate these scores using a weighted approach and a squeeze-and-excitation mechanism to dynamically address quality issues across different scenarios. We implement point-wise and pair-wise optimization objectives to ensure score stability and reasonableness. Extensive offline and online experiments on a world-level video search engine demonstrate MBCN's effectiveness in identifying video quality issues, significantly enhancing the retrieval system's ranking performance. Detailed experimental analyses confirm the positive contribution of all four evaluation branches. Furthermore, MBCN significantly improves recognition accuracy for low-quality AI-generated videos compared to the baseline.
- Abstract(参考訳): ビデオ品質アセスメント(VQA)は,高品質な動画を優先する品質問題を特定することを目的とした,大規模ビデオ検索システムにおいて不可欠である。
産業システムでは、モザイクやブラックボックスのような視覚関連問題、ビデオタイトルやOCRコンテンツからのテキスト問題、AI生成ビデオからのフレーム不整合やフレームテキストミスマッチといったセマンティック問題である。
産業環境での流行にもかかわらず、これらの低品質ビデオは学術研究でほとんど見落とされ、正確な識別の難しさを浮き彫りにしている。
そこで本研究では,産業用ビデオ検索システムに適したMulti-Branch Collaborative Network(MBCN)を提案する。
MBCNには4つのブランチがあり、それぞれが上記の品質問題に対処するように設計されている。
それぞれのブランチが独立してビデオをスコアリングした後、重み付けされたアプローチと、異なるシナリオにおける品質問題に動的に対処するシャープ・アンド・エキサイティング・メカニズムを用いて、これらのスコアを集約する。
スコアの安定性と合理性を確保するために,ポイントワイドとペアワイドの最適化目標を実装した。
世界レベルのビデオ検索エンジン上での大規模なオフラインおよびオンライン実験は、MBCNがビデオ品質の問題を特定する効果を示し、検索システムのランキング性能を大幅に向上させた。
詳細な実験分析により,4つの評価枝の正の寄与が確認された。
さらに、MBCNは、ベースラインと比較して、低品質のAI生成ビデオの認識精度を著しく向上させる。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs [76.15356325947731]
ビデオ品質の識別におけるLMMの習熟度を評価するための新しいベンチマークであるQ-Bench-Videoを紹介する。
2,378組の質問応答ペアを収集し、12のオープンソースと5のプロプライエタリなLMMでテストする。
以上の結果から,LMMは映像品質の基本的な理解を保ちつつも,その性能は不完全かつ不正確であり,人的性能に比較して顕著な相違があることが示唆された。
論文 参考訳(メタデータ) (2024-09-30T08:05:00Z) - LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - Exploring AIGC Video Quality: A Focus on Visual Harmony, Video-Text Consistency and Domain Distribution Gap [4.922783970210658]
我々は,AIGC映像品質の評価を,視覚調和,映像テキストの整合性,領域分布ギャップの3次元に分類した。
各次元に対して、AIGCビデオの総合的な品質評価を提供するための特定のモジュールを設計する。
本研究は,異なるテキスト・ツー・ビデオ・モデルにより生成される映像の視覚的品質,流動性,スタイルの有意な変化を明らかにする。
論文 参考訳(メタデータ) (2024-04-21T08:27:20Z) - Perceptual Video Quality Assessment: A Survey [63.61214597655413]
映像品質評価は,映像処理分野において重要な役割を担っている。
過去20年間に様々な主観的・客観的な映像品質評価研究が実施されてきた。
この調査は、これらのビデオ品質アセスメント研究の最新かつ包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T16:13:52Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - Deep Quality Assessment of Compressed Videos: A Subjective and Objective
Study [23.3509109592315]
ビデオ符号化プロセスでは、圧縮ビデオの知覚品質を、フル参照品質評価指標により評価する。
この問題を解決するために,非参照圧縮映像品質評価アルゴリズムの設計が重要である。
本研究では,大規模圧縮映像品質データベースを構築するために,半自動ラベリング方式を採用する。
論文 参考訳(メタデータ) (2022-05-07T10:50:06Z) - Blindly Assess Quality of In-the-Wild Videos via Quality-aware
Pre-training and Motion Perception [32.87570883484805]
本稿では,画像品質評価(IQA)データベースからの知識の伝達と,リッチな動きパターンを用いた大規模行動認識を提案する。
対象のVQAデータベース上で、混合リストワイドランキング損失関数を用いて、提案したモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-08-19T05:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。