Fugu-MT 論文翻訳(概要): Understanding the Perceived Quality of Video Predictions

論文の概要: Understanding the Perceived Quality of Video Predictions

arxiv url: http://arxiv.org/abs/2005.00356v5
Date: Sat, 25 Dec 2021 05:33:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 00:21:32.372826
Title: Understanding the Perceived Quality of Video Predictions
Title（参考訳）: 映像予測の知覚的品質の理解
Authors: Nagabhushan Somraj, Manoj Surya Kashi, S. P. Arun and Rajiv Soundararajan
Abstract要約: インド科学予測ビデオ品質評価(IISc PVQA)データベースを300本作成する。これらのビデオの被験者50名から主観的品質評価を収集し、ビデオ予測を評価するために広く利用されているいくつかの指標をベンチマークした。予測ビデオの品質を効果的に把握するための2つの新機能、過去のフレームとの予測フレームの深い特徴の運動補償コサイン類似性、および再スケールされたフレーム差から抽出された深い特徴を紹介する。
参考スコア（独自算出の注目度）: 10.533348468499824
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The study of video prediction models is believed to be a fundamental approach to representation learning for videos. While a plethora of generative models for predicting the future frame pixel values given the past few frames exist, the quantitative evaluation of the predicted frames has been found to be extremely challenging. In this context, we study the problem of quality assessment of predicted videos. We create the Indian Institute of Science Predicted Videos Quality Assessment (IISc PVQA) Database consisting of 300 videos, obtained by applying different prediction models on different datasets, and accompanying human opinion scores. We collected subjective ratings of quality from 50 human participants for these videos. Our subjective study reveals that human observers were highly consistent in their judgments of quality of predicted videos. We benchmark several popularly used measures for evaluating video prediction and show that they do not adequately correlate with these subjective scores. We introduce two new features to effectively capture the quality of predicted videos, motion-compensated cosine similarities of deep features of predicted frames with past frames, and deep features extracted from rescaled frame differences. We show that our feature design leads to state of the art quality prediction in accordance with human judgments on our IISc PVQA Database. The database and code are publicly available on our project website: https://nagabhushansn95.github.io/publications/2020/pvqa
Abstract（参考訳）: 映像予測モデルの研究は,映像表現学習の基本的なアプローチであると考えられている。過去数個のフレームから将来のフレーム画素値を予測するための多くの生成モデルが存在するが、予測されたフレームの定量的評価は極めて困難である。本研究では,予測ビデオの品質評価の問題点について検討する。我々は、異なるデータセットに異なる予測モデルを適用し、人間の意見スコアを伴って得られた300本のビデオからなる、インド科学研究所予測ビデオ品質評価(iisc pvqa)データベースを作成する。これらのビデオでは,50人の被験者から主観的品質評価を収集した。主観的調査の結果,人間の観察者は予測ビデオの品質判断において高い一貫性を示した。ビデオ予測の評価に広く用いられているいくつかの指標をベンチマークし、これらの主観的スコアと適切に相関しないことを示す。予測ビデオの品質を効果的に把握するための2つの新機能、過去のフレームとの予測フレームの深い特徴の運動補償コサイン類似性、および再スケールされたフレーム差から抽出された深い特徴を紹介する。我々の特徴設計は,我々のIISc PVQAデータベース上での人的判断にしたがって,品質予測の状況につながることを示す。データベースとコードは、プロジェクトのWebサイトで公開されています。

関連論文リスト

HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
Video-Bench: Human-Aligned Video Generation Benchmark [26.31594706735867]
生成モデルが視覚的にリアルで高品質なビデオを生成することを保証するためには、ビデオ生成アセスメントが不可欠である。本稿では,豊富なプロンプトスイートと広範囲な評価次元を備えた総合的なベンチマークであるVideo-Benchを紹介する。 Soraを含む先進的なモデルの実験は、ビデオベンチがあらゆる次元にわたる人間の好みと優れた整合性を達成することを示した。
論文参考訳（メタデータ） (2025-04-07T10:32:42Z)
GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文参考訳（メタデータ） (2025-03-04T07:04:55Z)
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。 VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文参考訳（メタデータ） (2024-11-20T17:54:41Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文参考訳（メタデータ） (2024-02-15T18:59:11Z)
STREAM: Spatio-TempoRal Evaluation and Analysis Metric for Video Generative Models [6.855409699832414]
ビデオ生成モデルは、短いビデオクリップを生成するのに苦労する。現在のビデオ評価メトリクスは、埋め込みをビデオ埋め込みネットワークに切り替えることによって、画像メトリクスの単純な適応である。本稿では,空間的側面と時間的側面を独立に評価するために一意に設計された新しいビデオ評価指標STREAMを提案する。
論文参考訳（メタデータ） (2024-01-30T08:18:20Z)
EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2023-10-17T17:50:46Z)
Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文参考訳（メタデータ） (2022-03-17T13:08:28Z)
FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。 FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文参考訳（メタデータ） (2021-06-24T17:20:21Z)
Mutual Information Based Method for Unsupervised Disentanglement of Video Representation [0.0]
ビデオ予測モデルは、マニキュア計画、ヘルスケア、自律ナビゲーション、シミュレーションに将来的な応用を見出した。将来のフレーム生成における大きな課題の1つは、視覚データの高次元性によるものである。我々は,高次元映像フレームの予測作業を削減する,相互情報予測自動エンコーダフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-17T13:16:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。