論文の概要: DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2504.11733v2
- Date: Thu, 17 Apr 2025 04:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 10:52:32.178560
- Title: DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment
- Title(参考訳): DVLTA-VQA:Blindビデオ品質評価のためのテキストガイド適応による視覚・言語分離モデリング
- Authors: Li Yu, Situo Wang, Wei Zhou, Moncef Gabbouj,
- Abstract要約: 本稿では,Blind Video Quality Assessment (DVLTA-VQA) のためのテキストガイド適応を用いたデカップリング型視覚言語モデルを提案する。
ビデオベーステンポラルCLIPモジュールは、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。
時間的コンテキストモジュールは、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために開発されている。
最後に、空間情報と時間情報のより効果的な統合を可能にするために、テキスト誘導型適応融合戦略を提案する。
- 参考スコア(独自算出の注目度): 17.85550556489256
- License:
- Abstract: Inspired by the dual-stream theory of the human visual system (HVS) - where the ventral stream is responsible for object recognition and detail analysis, while the dorsal stream focuses on spatial relationships and motion perception - an increasing number of video quality assessment (VQA) works built upon this framework are proposed. Recent advancements in large multi-modal models, notably Contrastive Language-Image Pretraining (CLIP), have motivated researchers to incorporate CLIP into dual-stream-based VQA methods. This integration aims to harness the model's superior semantic understanding capabilities to replicate the object recognition and detail analysis in ventral stream, as well as spatial relationship analysis in dorsal stream. However, CLIP is originally designed for images and lacks the ability to capture temporal and motion information inherent in videos.To address the limitation, this paper propose a Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment (DVLTA-VQA), which decouples CLIP's visual and textual components, and integrates them into different stages of the NR-VQA pipeline. Specifically, a Video-Based Temporal CLIP module is proposed to explicitly model temporal dynamics and enhance motion perception, aligning with the dorsal stream. Additionally, a Temporal Context Module is developed to refine inter-frame dependencies, further improving motion modeling. On the ventral stream side, a Basic Visual Feature Extraction Module is employed to strengthen detail analysis. Finally, a text-guided adaptive fusion strategy is proposed to enable dynamic weighting of features, facilitating more effective integration of spatial and temporal information.
- Abstract(参考訳): 人間の視覚システム(HVS)の二重ストリーム理論に触発され、腹側の流れが物体の認識と詳細分析に責任を負う一方で、背側の流れは空間的関係と運動知覚に焦点をあて、この枠組み上に構築された映像品質評価(VQA)の増大が提案されている。
大規模マルチモーダルモデルの最近の進歩、特にContrastive Language-Image Pretraining (CLIP)は、CLIPをデュアルストリームベースのVQA手法に組み込む動機となった。
この統合は、モデルが持つ優れた意味理解能力を活用して、腹側流の物体認識と細部解析を再現し、背側流の空間的関係解析を行うことを目的としている。
しかし、CLIPはもともと画像用に設計されており、ビデオ固有の時間的・動作的な情報をキャプチャする能力に欠けており、この制限に対応するために、CLIPの視覚的・テキスト的コンポーネントを分離し、NR-VQAパイプラインの異なるステージに統合する、テキストガイドによるテキスト品質評価(DVLTA-VQA)のための分離視覚言語モデリング(Decoupled Vision-Language Modeling)を提案する。
具体的には、ビデオベースの時間的CLIPモジュールを提案し、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。
さらに、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために、テンポラルコンテキストモジュールが開発されている。
腹側では、詳細分析を強化するために基本視覚特徴抽出モジュールが使用される。
最後に,テキスト誘導型適応核融合戦略を提案し,特徴量の動的重み付けを可能にし,空間情報と時間情報のより効果的な統合を容易にする。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Live Video Captioning [0.6291443816903801]
LVC(Live Video Captioning)へのパラダイムシフトを導入する。
LVCでは、密集したビデオキャプションモデルがオンライン形式でビデオストリームのキャプションを生成する必要がある。
オンラインシナリオに適した新しい評価指標を提案し,従来の指標よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:25:16Z) - Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation [34.37450315995176]
現在の参照ビデオオブジェクト(RVOS)メソッドは通常、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。
画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。
提案手法は最先端のアルゴリズムに対して良好に動作し,強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-17T08:14:22Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - A Deep Learning based No-reference Quality Assessment Model for UGC
Videos [44.00578772367465]
従来のビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのビデオのフレームレベルの特徴を抽出している。
ビデオフレームの生画素から高品質な空間特徴表現を学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練する,非常に単純で効果的なVQAモデルを提案する。
より優れた品質認識機能により、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオを得る。
論文 参考訳(メタデータ) (2022-04-29T12:45:21Z) - Rethinking Multi-Modal Alignment in Video Question Answering from
Feature and Sample Perspectives [30.666823939595627]
本稿では,ビデオQAにおけるマルチモーダルアライメント問題について,特徴とサンプルの観点から再考する。
我々はヘテロジニアスグラフアーキテクチャを採用し、トラジェクトリレベルとフレームレベルの両方の視覚特徴を言語特徴と整合させる階層的なフレームワークを設計する。
提案手法は, NExT-QAベンチマークにおいて, 最先端モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-25T10:42:07Z) - Visual Relationship Forecasting in Videos [56.122037294234865]
本稿では,視覚関係予測(Visual Relation Forecasting:VRF)というタスクをビデオに提示する。
Hフレームと対象オブジェクトのペアを与えられたVRFは、視覚的な証拠なしに次のTフレームに対する将来の相互作用を予測することを目的としている。
VRFタスクを評価するために,VRF-AGとVRF-VidORという2つのビデオデータセットを導入する。
論文 参考訳(メタデータ) (2021-07-02T16:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。