論文の概要: Convolutions Need Registers Too: HVS-Inspired Dynamic Attention for Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2601.11045v1
- Date: Fri, 16 Jan 2026 07:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.39202
- Title: Convolutions Need Registers Too: HVS-Inspired Dynamic Attention for Video Quality Assessment
- Title(参考訳): HVSにインスパイアされたビデオ品質評価のためのダイナミックアテンション
- Authors: Mayesha Maliha R. Mithila, Mylene C. Q. Farias,
- Abstract要約: 本稿では,ビデオ品質評価のためのグローバルレジスター(DAGR-VQA)を用いた動的注意(Dynamic Attention with Global Registers for Video Quality Assessment)を提案する。
本モデルでは,動的サリエンシマップをRGB入力と統合し,空間データを捕捉し,時間変換器を用いて解析することにより,知覚的に一貫した映像品質評価を実現する。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: No-reference video quality assessment (NR-VQA) estimates perceptual quality without a reference video, which is often challenging. While recent techniques leverage saliency or transformer attention, they merely address global context of the video signal by using static maps as auxiliary inputs rather than embedding context fundamentally within feature extraction of the video sequence. We present Dynamic Attention with Global Registers for Video Quality Assessment (DAGR-VQA), the first framework integrating register-token directly into a convolutional backbone for spatio-temporal, dynamic saliency prediction. By embedding learnable register tokens as global context carriers, our model enables dynamic, HVS-inspired attention, producing temporally adaptive saliency maps that track salient regions over time without explicit motion estimation. Our model integrates dynamic saliency maps with RGB inputs, capturing spatial data and analyzing it through a temporal transformer to deliver a perceptually consistent video quality assessment. Comprehensive tests conducted on the LSVQ, KonVid-1k, LIVE-VQC, and YouTube-UGC datasets show that the performance is highly competitive, surpassing the majority of top baselines. Research on ablation studies demonstrates that the integration of register tokens promotes the development of stable and temporally consistent attention mechanisms. Achieving an efficiency of 387.7 FPS at 1080p, DAGR-VQA demonstrates computational performance suitable for real-time applications like multimedia streaming systems.
- Abstract(参考訳): 非参照ビデオ品質評価(NR-VQA)は、参照ビデオなしで知覚品質を推定するが、これはしばしば困難である。
近年の手法では, 映像系列の特徴抽出にコンテキストを埋め込むのではなく, 静的マップを補助入力として用いることで, 映像信号のグローバルな文脈にのみ対応している。
本稿では,ビデオ品質評価のためのグローバルレジスタ(DAGR-VQA)を用いた動的注意(Dynamic Attention with Global Registers for Video Quality Assessment)を提案する。
学習可能なレジスタトークンをグローバルなコンテクストキャリアとして組み込むことで、動的にHVSにインスパイアされた注意を可能とし、時間とともに有意な動き推定をすることなく、有意な領域を追跡できる時間順応性マップを作成できる。
本モデルでは,動的サリエンシマップをRGB入力と統合し,空間データを捕捉し,時間変換器を用いて解析することにより,知覚的に一貫した映像品質評価を実現する。
LSVQ、KonVid-1k、LIV-VQC、YouTube-UGCデータセットで実施された総合的なテストでは、パフォーマンスは高い競争力を示し、トップベースラインの大部分を上回っている。
アブレーション研究は、レジスタトークンの統合が安定かつ時間的に一貫した注意機構の発達を促進することを実証している。
1080pで387.7 FPSの効率を得ると、DAGR-VQAはマルチメディアストリーミングシステムのようなリアルタイムアプリケーションに適した計算性能を示す。
関連論文リスト
- Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。
本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。
そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-12-19T15:15:58Z) - Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。
データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。
品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:00:21Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - Emergent Temporal Correspondences from Video Diffusion Transformers [30.83001895223298]
DiffTrackは、この問題に答えるために設計された最初の定量的分析フレームワークである。
分析の結果,特定のクエリキーの類似性がすべてではないが,時間的マッチングにおいて重要な役割を担っていることが明らかとなった。
本研究は,映像の時間的整合性を改善する新たなガイダンス法により,動画の動作向上に拡張する。
論文 参考訳(メタデータ) (2025-06-20T17:59:55Z) - Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - Towards Efficient Real-Time Video Motion Transfer via Generative Time Series Modeling [7.3949576464066]
本研究では,モーショントランスファー対応ビデオアプリケーションにおいて,帯域幅を大幅に最適化する深層学習フレームワークを提案する。
複雑な動きを効果的に捉えるために,キーポイントを検出することで動的物体を符号化する第1次運動モデル(FOMM)を用いる。
ビデオアニメーションと再構成のために, 平均絶対誤差, 共同埋め込み予測アーキテクチャ埋め込み距離, 構造類似度指数, 平均ペアワイズ変位の3つの指標を用いて, 実験結果を検証した。
論文 参考訳(メタデータ) (2025-04-07T22:21:54Z) - MAUCell: An Adaptive Multi-Attention Framework for Video Frame Prediction [0.0]
本稿では,GAN(Generative Adrative Networks)とアテンション機構を組み合わせたマルチアテンションユニット(MAUCell)を導入する。
新しい設計システムは、時間的連続性と空間的精度の平衡を維持し、信頼性の高い映像予測を提供する。
論文 参考訳(メタデータ) (2025-01-28T14:52:10Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。