論文の概要: Understanding the Perceived Quality of Video Predictions
- arxiv url: http://arxiv.org/abs/2005.00356v5
- Date: Sat, 25 Dec 2021 05:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 00:21:32.372826
- Title: Understanding the Perceived Quality of Video Predictions
- Title(参考訳): 映像予測の知覚的品質の理解
- Authors: Nagabhushan Somraj, Manoj Surya Kashi, S. P. Arun and Rajiv
Soundararajan
- Abstract要約: インド科学予測ビデオ品質評価(IISc PVQA)データベースを300本作成する。
これらのビデオの被験者50名から主観的品質評価を収集し、ビデオ予測を評価するために広く利用されているいくつかの指標をベンチマークした。
予測ビデオの品質を効果的に把握するための2つの新機能、過去のフレームとの予測フレームの深い特徴の運動補償コサイン類似性、および再スケールされたフレーム差から抽出された深い特徴を紹介する。
- 参考スコア(独自算出の注目度): 10.533348468499824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of video prediction models is believed to be a fundamental approach
to representation learning for videos. While a plethora of generative models
for predicting the future frame pixel values given the past few frames exist,
the quantitative evaluation of the predicted frames has been found to be
extremely challenging. In this context, we study the problem of quality
assessment of predicted videos. We create the Indian Institute of Science
Predicted Videos Quality Assessment (IISc PVQA) Database consisting of 300
videos, obtained by applying different prediction models on different datasets,
and accompanying human opinion scores. We collected subjective ratings of
quality from 50 human participants for these videos. Our subjective study
reveals that human observers were highly consistent in their judgments of
quality of predicted videos. We benchmark several popularly used measures for
evaluating video prediction and show that they do not adequately correlate with
these subjective scores. We introduce two new features to effectively capture
the quality of predicted videos, motion-compensated cosine similarities of deep
features of predicted frames with past frames, and deep features extracted from
rescaled frame differences. We show that our feature design leads to state of
the art quality prediction in accordance with human judgments on our IISc PVQA
Database. The database and code are publicly available on our project website:
https://nagabhushansn95.github.io/publications/2020/pvqa
- Abstract(参考訳): 映像予測モデルの研究は,映像表現学習の基本的なアプローチであると考えられている。
過去数個のフレームから将来のフレーム画素値を予測するための多くの生成モデルが存在するが、予測されたフレームの定量的評価は極めて困難である。
本研究では,予測ビデオの品質評価の問題点について検討する。
我々は、異なるデータセットに異なる予測モデルを適用し、人間の意見スコアを伴って得られた300本のビデオからなる、インド科学研究所予測ビデオ品質評価(iisc pvqa)データベースを作成する。
これらのビデオでは,50人の被験者から主観的品質評価を収集した。
主観的調査の結果,人間の観察者は予測ビデオの品質判断において高い一貫性を示した。
ビデオ予測の評価に広く用いられているいくつかの指標をベンチマークし、これらの主観的スコアと適切に相関しないことを示す。
予測ビデオの品質を効果的に把握するための2つの新機能、過去のフレームとの予測フレームの深い特徴の運動補償コサイン類似性、および再スケールされたフレーム差から抽出された深い特徴を紹介する。
我々の特徴設計は,我々のIISc PVQAデータベース上での人的判断にしたがって,品質予測の状況につながることを示す。
データベースとコードは、プロジェクトのWebサイトで公開されています。
関連論文リスト
- VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models [6.855409699832414]
ビデオ生成モデルは、短いビデオクリップを生成するのに苦労する。
現在のビデオ評価メトリクスは、埋め込みをビデオ埋め込みネットワークに切り替えることによって、画像メトリクスの単純な適応である。
本稿では,空間的側面と時間的側面を独立に評価するために一意に設計された新しいビデオ評価指標STREAMを提案する。
論文 参考訳(メタデータ) (2024-01-30T08:18:20Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Mutual Information Based Method for Unsupervised Disentanglement of
Video Representation [0.0]
ビデオ予測モデルは、マニキュア計画、ヘルスケア、自律ナビゲーション、シミュレーションに将来的な応用を見出した。
将来のフレーム生成における大きな課題の1つは、視覚データの高次元性によるものである。
我々は,高次元映像フレームの予測作業を削減する,相互情報予測自動エンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T13:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。