論文の概要: Exploring Simple Siamese Network for High-Resolution Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2503.02330v1
- Date: Tue, 04 Mar 2025 06:40:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:17:57.545599
- Title: Exploring Simple Siamese Network for High-Resolution Video Quality Assessment
- Title(参考訳): 高分解能映像品質評価のための単純なシームズネットワークの探索
- Authors: Guotao Shen, Ziheng Yan, Xin Jin, Longhai Wu, Jie Chen, Ilhyun Cho, Cheul-Hee Hahm,
- Abstract要約: 本研究は,高解像度ビデオ品質評価(VQA)のためのシンプルだが効果的なSiamVQAを紹介する。
SiamVQAは、技術ブランチと美学ブランチの重みを共有し、技術ブランチのセマンティックな認識能力を高める。
SiamVQAは、高解像度のベンチマークで最先端の精度を達成し、低解像度のベンチマークで競合する結果を得る。
- 参考スコア(独自算出の注目度): 8.636892647771836
- License:
- Abstract: In the research of video quality assessment (VQA), two-branch network has emerged as a promising solution. It decouples VQA with separate technical and aesthetic branches to measure the perception of low-level distortions and high-level semantics respectively. However, we argue that while technical and aesthetic perspectives are complementary, the technical perspective itself should be measured in semantic-aware manner. We hypothesize that existing technical branch struggles to perceive the semantics of high-resolution videos, as it is trained on local mini-patches sampled from videos. This issue can be hidden by apparently good results on low-resolution videos, but indeed becomes critical for high-resolution VQA. This work introduces SiamVQA, a simple but effective Siamese network for highre-solution VQA. SiamVQA shares weights between technical and aesthetic branches, enhancing the semantic perception ability of technical branch to facilitate technical-quality representation learning. Furthermore, it integrates a dual cross-attention layer for fusing technical and aesthetic features. SiamVQA achieves state-of-the-art accuracy on high-resolution benchmarks, and competitive results on lower-resolution benchmarks. Codes will be available at: https://github.com/srcn-ivl/SiamVQA
- Abstract(参考訳): ビデオ品質アセスメント(VQA)の研究において、2分岐ネットワークは有望な解決策として現れている。
低レベルの歪みの知覚と高レベルの意味論をそれぞれ測定するために、VQAと別個の技術ブランチと美学ブランチを分離する。
しかし, 技術的視点と美的視点は相補的ではあるが, 技術的視点そのものは意味論的手法で測定されるべきである,と論じる。
われわれは、既存の技術部門が高解像度ビデオのセマンティクスを理解するのに苦労していると仮定する。
この問題は、低解像度ビデオの優れた結果によって隠すことができるが、高解像度のVQAでは本当に重要だ。
本研究は,高分解能VQAのためのシンプルだが効果的なSiamVQAを提案する。
SiamVQAは、技術的ブランチと美学ブランチの重みを共有し、技術的ブランチのセマンティックな認識能力を高めて、技術的品質の表現学習を促進する。
さらに、技術と美的特徴を融合させるために、二重のクロスアテンション層を統合している。
SiamVQAは、高解像度のベンチマークで最先端の精度を達成し、低解像度のベンチマークで競合する結果を得る。
https://github.com/srcn-ivl/SiamVQA
関連論文リスト
- CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。
VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文 参考訳(メタデータ) (2023-07-31T16:29:29Z) - Towards Robust Text-Prompted Semantic Criterion for In-the-Wild Video
Quality Assessment [54.31355080688127]
コントラスト言語画像事前学習(CLIP)を用いたテキストプロンプト付きセマンティック親和性品質指標(SAQI)とそのローカライズ版(SAQI-Local)を導入する。
BVQI-Localは前例のないパフォーマンスを示し、すべてのデータセットで既存のゼロショットインデックスを少なくとも24%上回る。
我々は、異なる指標の異なる品質問題を調べるために包括的な分析を行い、設計の有効性と合理性を示す。
論文 参考訳(メタデータ) (2023-04-28T08:06:05Z) - MRET: Multi-resolution Transformer for Video Quality Assessment [37.355412115794195]
ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。
現在、大量のビデオは720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオに対して高周波の詳細を欠いている。
本稿では,高分解能な品質情報を保存するトランスフォーマーベースのNR-VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T21:48:49Z) - Exploring Opinion-unaware Video Quality Assessment with Semantic
Affinity Criterion [52.07084862209754]
コントラッシブ言語画像事前学習モデルにおけるテキストプロンプトを用いた意見認識型VQAに対する明示的セマンティック親和性指標を提案する。
また、ガウス正規化とシグモイド再スケーリング戦略を通じて、異なる伝統的な低レベル自然度指数を集約する。
The proposed Blind Unified Opinion-Unaware Video Quality Index via Semantic and Technical Metric Aggregation (BUONA-VISTA)は、既存の意見不明のVQA手法を少なくとも20%改善した。
論文 参考訳(メタデータ) (2023-02-26T08:46:07Z) - Disentangling Aesthetic and Technical Effects for Video Quality
Assessment of User Generated Content [54.31355080688127]
YouTube-VQA問題における人間の品質知覚のメカニズムはまだ解明されていない。
本稿では,2つの個別評価器を,各問題に特化して設計したビューで訓練する手法を提案する。
我々の盲目主観的研究は、DOVERの別個の評価器が、各不整合品質問題に対する人間の認識と効果的に一致できることを証明している。
論文 参考訳(メタデータ) (2022-11-09T13:55:50Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。