論文の概要: A Perceptual Quality Metric for Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2210.01879v1
- Date: Tue, 4 Oct 2022 19:56:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:56:07.607414
- Title: A Perceptual Quality Metric for Video Frame Interpolation
- Title(参考訳): ビデオフレーム補間のための知覚的品質基準
- Authors: Qiqi Hou, Abhijay Ghildyal, Feng Liu
- Abstract要約: ビデオフレームの結果は、しばしばユニークな成果物であるので、既存の品質指標は、結果を測定するときに人間の知覚と一致しないことがある。
最近のディープラーニングベースの品質指標は、人間の判断とより整合性を示すが、時間的情報を考慮していないため、ビデオ上でのパフォーマンスは損なわれている。
本手法は,個々のフレームではなく,ビデオから直接知覚的特徴を学習する。
- 参考スコア(独自算出の注目度): 6.743340926667941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on video frame interpolation has made significant progress in recent
years. However, existing methods mostly use off-the-shelf metrics to measure
the quality of interpolation results with the exception of a few methods that
employ user studies, which is time-consuming. As video frame interpolation
results often exhibit unique artifacts, existing quality metrics sometimes are
not consistent with human perception when measuring the interpolation results.
Some recent deep learning-based perceptual quality metrics are shown more
consistent with human judgments, but their performance on videos is compromised
since they do not consider temporal information. In this paper, we present a
dedicated perceptual quality metric for measuring video frame interpolation
results. Our method learns perceptual features directly from videos instead of
individual frames. It compares pyramid features extracted from video frames and
employs Swin Transformer blocks-based spatio-temporal modules to extract
spatio-temporal information. To train our metric, we collected a new video
frame interpolation quality assessment dataset. Our experiments show that our
dedicated quality metric outperforms state-of-the-art methods when measuring
video frame interpolation results. Our code and model are made publicly
available at \url{https://github.com/hqqxyy/VFIPS}.
- Abstract(参考訳): 近年,映像フレーム補間の研究は大きな進歩を遂げている。
しかし、既存の手法では、時間を要するユーザスタディを採用するいくつかの方法を除いて、主に棚外のメトリクスを使用して補間結果の質を測定する。
映像フレーム補間結果がユニークなアーティファクトを示すことが多いため、既存の品質指標は補間結果を測定する際に人間の知覚と一致しない場合がある。
最近の深層学習に基づく知覚品質指標は、人間の判断とより整合性を示すが、時間的情報を考慮していないため、ビデオ上でのパフォーマンスは損なわれる。
本稿では,映像フレーム補間結果を測定するための知覚品質指標を提案する。
本手法は,個々のフレームではなく映像から直接知覚特徴を学習する。
ビデオフレームから抽出されたピラミッドの特徴を比較し、スウィントランスブロックベースの時空間モジュールを用いて時空間情報を抽出する。
測定基準をトレーニングするために,新しいビデオフレーム補間品質評価データセットを収集した。
実験では,映像フレーム補間結果の測定において,品質指標が最先端手法よりも優れていることを示す。
私たちのコードとモデルは、 \url{https://github.com/hqqxyy/VFIPS}で公開されています。
関連論文リスト
- Fréchet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos [13.368981834953981]
映像生成における動きの整合性を評価することを目的としたFr'echet Video Motion Distanceメトリックを提案する。
具体的には、キーポイント追跡に基づく明示的な動作特徴を設計し、Fr'echet距離を用いてこれらの特徴間の類似度を測定する。
我々は大規模な人間の研究を行い、我々の測定値が時間的ノイズを効果的に検出し、既存の測定値よりも生成された映像品質の人間の知覚とよく一致していることを示す。
論文 参考訳(メタデータ) (2024-07-23T02:10:50Z) - STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models [6.855409699832414]
ビデオ生成モデルは、短いビデオクリップを生成するのに苦労する。
現在のビデオ評価メトリクスは、埋め込みをビデオ埋め込みネットワークに切り替えることによって、画像メトリクスの単純な適応である。
本稿では,空間的側面と時間的側面を独立に評価するために一意に設計された新しいビデオ評価指標STREAMを提案する。
論文 参考訳(メタデータ) (2024-01-30T08:18:20Z) - Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - FloLPIPS: A Bespoke Video Quality Metric for Frame Interpoation [4.151439675744056]
本稿では,VFIのためのフルレファレンスビデオ品質基準であるFloLPIPSについて述べる。
FloLPIPSは、12のポピュラーな品質評価器よりも主観的根拠真理との相関性能が優れている。
論文 参考訳(メタデータ) (2022-07-17T09:07:33Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。