論文の概要: MVQA: Mamba with Unified Sampling for Efficient Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2504.16003v1
- Date: Tue, 22 Apr 2025 16:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:30:55.29372
- Title: MVQA: Mamba with Unified Sampling for Efficient Video Quality Assessment
- Title(参考訳): MVQA:効率的なビデオ品質評価のための統一サンプリングマンバ
- Authors: Yachun Mi, Yu Li, Weicheng Meng, Chaofeng Chen, Chen Hui, Shaohui Liu,
- Abstract要約: ビデオ品質評価(VQA)のためのマンバモデルMVQAを提案する。
USDSは低解像度ビデオからのセマンティックパッチサンプリングと、オリジナル解像度ビデオからの歪みパッチサンプリングを組み合わせる。
実験の結果,提案したMVQAにはUSDSが組み込まれており,最先端の手法に匹敵する性能が得られた。
- 参考スコア(独自算出の注目度): 24.053542031123985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of long-duration, high-definition videos has made efficient video quality assessment (VQA) a critical challenge. Existing research typically tackles this problem through two main strategies: reducing model parameters and resampling inputs. However, light-weight Convolution Neural Networks (CNN) and Transformers often struggle to balance efficiency with high performance due to the requirement of long-range modeling capabilities. Recently, the state-space model, particularly Mamba, has emerged as a promising alternative, offering linear complexity with respect to sequence length. Meanwhile, efficient VQA heavily depends on resampling long sequences to minimize computational costs, yet current resampling methods are often weak in preserving essential semantic information. In this work, we present MVQA, a Mamba-based model designed for efficient VQA along with a novel Unified Semantic and Distortion Sampling (USDS) approach. USDS combines semantic patch sampling from low-resolution videos and distortion patch sampling from original-resolution videos. The former captures semantically dense regions, while the latter retains critical distortion details. To prevent computation increase from dual inputs, we propose a fusion mechanism using pre-defined masks, enabling a unified sampling strategy that captures both semantic and quality information without additional computational burden. Experiments show that the proposed MVQA, equipped with USDS, achieve comparable performance to state-of-the-art methods while being $2\times$ as fast and requiring only $1/5$ GPU memory.
- Abstract(参考訳): 長時間の高精細ビデオの急速な成長は、映像品質評価(VQA)を重要な課題にしている。
既存の研究は通常、モデルパラメータの削減と入力の再サンプリングという2つの主要な戦略を通じてこの問題に取り組む。
しかしながら、軽量な畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、長距離モデリング機能を必要とするため、効率と高性能のバランスをとるのに苦労することが多い。
近年、状態空間モデル、特にマンバは、列長に関する線形複雑性を提供する、有望な代替手段として登場した。
一方、効率的なVQAは計算コストを最小限に抑えるために長いシーケンスを再サンプリングすることに大きく依存するが、現在の再サンプリング手法は本質的な意味情報の保存に弱いことが多い。
本研究では,効率的なVQAを設計したMambaベースモデルであるMVQAと,新しい統一セマンティック・ディストーションサンプリング(USDS)手法を提案する。
USDSは低解像度ビデオからのセマンティックパッチサンプリングと、オリジナル解像度ビデオからの歪みパッチサンプリングを組み合わせる。
前者は意味的に密度の高い領域を捉え、後者は臨界歪みの詳細を保持する。
本稿では,2つの入力から計算量が増加するのを防ぐために,事前定義されたマスクを用いた融合機構を提案し,さらに計算負担を伴わずにセマンティックと品質の両方の情報を収集する統合サンプリング戦略を実現する。
実験によると、提案されたMVQAはUSDSを搭載し、最先端のメソッドに匹敵する性能を達成し、高速で1/5ドルのGPUメモリを必要とする。
関連論文リスト
- Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - VADMamba: Exploring State Space Models for Fast Video Anomaly Detection [4.874215132369157]
VQ-Mamba Unet(VQ-MaU)フレームワークには、Vector Quantization(VQ)層と、Mambaベースの非負のVisual State Space(NVSS)ブロックが組み込まれている。
提案するVADMambaの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2025-03-27T05:38:12Z) - Training-free Diffusion Acceleration with Bottleneck Sampling [37.9135035506567]
Bottleneck Samplingは、低解像度の事前処理を活用して、出力の忠実さを維持しながら計算オーバーヘッドを低減する、トレーニング不要のフレームワークである。
画像生成に最大3$times$、ビデオ生成に2.5$times$、標準のフル解像度サンプリングプロセスに匹敵する出力品質を維持しながら、推論を加速する。
論文 参考訳(メタデータ) (2025-03-24T17:59:02Z) - Low-Resource Video Super-Resolution using Memory, Wavelets, and Deformable Convolutions [3.018928786249079]
ビデオスーパーレゾリューション(VSR)は、リソース制約のあるエッジデバイスへのデプロイにおいて、依然として大きな課題である。
本稿では,230万のパラメータで最先端の再現精度を実現する,VSRのための新しい軽量かつパラメータ効率のニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-03T20:46:15Z) - MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection [11.534493974662304]
未トリミングビデオにおける時間的行動検出(TAD)は、長期保存ビデオを効率的に処理できるモデルを必要とする。
我々は,多スケールテンポラルマンバ (MS-Temba) を提案する。
MS-Tembaは、長期ビデオの最先端のパフォーマンスを達成し、短いセグメントで競争力を維持し、モデルの複雑さを88%削減する。
論文 参考訳(メタデータ) (2025-01-10T17:52:47Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Multimodal Instruction Tuning with Hybrid State Space Models [25.921044010033267]
長いコンテキストは、多モーダルな大言語モデルの認識と理解能力を高めるために不可欠である。
本稿では,マルチモーダルアプリケーションにおける長時間のコンテキストを効率的に扱うために,ハイブリッドトランスフォーマー-MAMBAモデルを用いた新しい手法を提案する。
本モデルでは,高解像度画像と高フレーム映像の推論効率を現行モデルに比べて約4倍向上させる。
論文 参考訳(メタデータ) (2024-11-13T18:19:51Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。