論文の概要: ChipQA: No-Reference Video Quality Prediction via Space-Time Chips
- arxiv url: http://arxiv.org/abs/2109.08726v1
- Date: Fri, 17 Sep 2021 19:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 02:14:48.742920
- Title: ChipQA: No-Reference Video Quality Prediction via Space-Time Chips
- Title(参考訳): ChipQA: 時空チップによる非参照ビデオ品質予測
- Authors: Joshua P. Ebenezer, Zaixi Shang, Yongjun Wu, Hai Wei, Sriram
Sethuraman, Alan C. Bovik
- Abstract要約: ノン参照ビデオ品質評価(VQA)のための新しいモデルを提案する。
私たちのアプローチでは、スペースタイムチップ(STチップ)と呼ばれる、高度に局所化された時空スライスという新しいアイデアを使用します。
本研究では,動作計算を必要とせずに,最先端の性能を低コストで実現できることを示す。
- 参考スコア(独自算出の注目度): 33.12375264668551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new model for no-reference video quality assessment (VQA). Our
approach uses a new idea of highly-localized space-time (ST) slices called
Space-Time Chips (ST Chips). ST Chips are localized cuts of video data along
directions that \textit{implicitly} capture motion. We use
perceptually-motivated bandpass and normalization models to first process the
video data, and then select oriented ST Chips based on how closely they fit
parametric models of natural video statistics. We show that the parameters that
describe these statistics can be used to reliably predict the quality of
videos, without the need for a reference video. The proposed method implicitly
models ST video naturalness, and deviations from naturalness. We train and test
our model on several large VQA databases, and show that our model achieves
state-of-the-art performance at reduced cost, without requiring motion
computation.
- Abstract(参考訳): ノン参照ビデオ品質評価(VQA)のための新しいモデルを提案する。
提案手法では,高局所化時空スライス(stチップ)の考え方である時空チップ(stチップ)を用いる。
STチップ(ST Chips)は、ビデオデータのローカライズされたカットで、textit{implicitly} の動きをキャプチャする。
まず、知覚的モチベーションのバンドパスと正規化モデルを用いて、まずビデオデータを処理し、次に、自然ビデオ統計のパラメトリックモデルにどの程度適合するかに基づいて、向き付けされたstチップを選択する。
これらの統計を記述したパラメータは,参照映像を必要とせずに,映像の品質を確実に予測できることを示す。
提案手法は,STビデオの自然さと自然さからの逸脱を暗黙的にモデル化する。
我々は,複数の大規模VQAデータベース上でモデルを訓練・テストし,動作計算を必要とせず,最先端の性能を低コストで実現できることを示す。
関連論文リスト
- Video Occupancy Models [59.17330408925321]
Video Occupancy Model (VOC) は、コンパクトな潜在空間で動作する。
従来の潜在空間世界モデルとは異なり、VOCは1ステップで将来の状態の割引分布を直接予測する。
論文 参考訳(メタデータ) (2024-06-25T17:57:38Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild [27.195339506769457]
映像品質評価(VQA)は、映像の知覚品質に影響を与える多くの要因により難しい問題である。
ビデオに対する平均評価スコア(MOS)の注釈付けは高価で時間を要するため、VQAデータセットのスケールが制限される。
PTM-VQAと呼ばれるVQA手法を提案し、PreTrained Modelsを利用して、様々な事前タスクで事前訓練されたモデルから知識を伝達する。
論文 参考訳(メタデータ) (2024-05-28T02:37:29Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - LSTM-based Video Quality Prediction Accounting for Temporal Distortions
in Videoconferencing Calls [22.579711841384764]
クラウドソーシングによってラベル付けされた主観的品質評価を用いてLSTMをトレーニングすることにより,このような歪みを自動的にモデル化するデータ駆動型手法を提案する。
ソースビデオにQRコードをマーカとして適用し、アライメントベクトルに基づいてアライメント参照を作成し、時間的特徴を計算する。
提案モデルでは,検証セット上で0.99のPCCを実現し,映像品質障害の原因について詳細な知見を提供する。
論文 参考訳(メタデータ) (2023-03-22T17:14:38Z) - Semi-Parametric Video-Grounded Text Generation [21.506377836451577]
本稿では,セミパラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。
ビデオを外部データストアとして扱うことで、SeViTは、いくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーを含む。
実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
論文 参考訳(メタデータ) (2023-01-27T03:00:43Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - FOVQA: Blind Foveated Video Quality Assessment [1.4127304025810108]
FOVQAと呼ばれるビデオ品質評価モデルを開発した。
空間変動自然シーン統計(NSS)と自然映像統計(NVS)の新しいモデルに基づく。
FOVQAは2D LIVE-FBT-FCVRデータベース上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2021-06-24T21:38:22Z) - VideoGPT: Video Generation using VQ-VAE and Transformers [75.20543171520565]
VideoGGは、自然ビデオへの可能性に基づく生成モデリングをスケールするための概念的にシンプルなアーキテクチャである。
VideoGはVQ-Eを用いて、3D畳み込みと軸自己アテンションを用いて、離散的潜伏表現を学習する。
我々のアーキテクチャは、b-101ロボットデータセット上でビデオ生成のための最先端ganモデルと競合するサンプルを生成することができる。
論文 参考訳(メタデータ) (2021-04-20T17:58:03Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。