論文の概要: LAVIB: A Large-scale Video Interpolation Benchmark
- arxiv url: http://arxiv.org/abs/2406.09754v1
- Date: Fri, 14 Jun 2024 06:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:53:58.802864
- Title: LAVIB: A Large-scale Video Interpolation Benchmark
- Title(参考訳): LAVIB: 大規模ビデオ補間ベンチマーク
- Authors: Alexandros Stergiou,
- Abstract要約: LAVIBは、Webから自動パイプラインを通じてソースされる高解像度ビデオの大規模なコレクションで構成されている。
各ビデオの運動の大きさ、輝度条件、フレームのシャープネス、コントラストについてメトリクスが計算される。
LAVIBには17KのUltra-HDビデオから283Kのクリップが含まれ、77.6時間に及ぶ。
- 参考スコア(独自算出の注目度): 58.194606275650095
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a LArge-scale Video Interpolation Benchmark (LAVIB) for the low-level video task of video frame interpolation (VFI). LAVIB comprises a large collection of high-resolution videos sourced from the web through an automated pipeline with minimal requirements for human verification. Metrics are computed for each video's motion magnitudes, luminance conditions, frame sharpness, and contrast. The collection of videos and the creation of quantitative challenges based on these metrics are under-explored by current low-level video task datasets. In total, LAVIB includes 283K clips from 17K ultra-HD videos, covering 77.6 hours. Benchmark train, val, and test sets maintain similar video metric distributions. Further splits are also created for out-of-distribution (OOD) challenges, with train and test splits including videos of dissimilar attributes.
- Abstract(参考訳): 本稿では,ビデオフレーム補間(VFI)の低レベルビデオタスクに対して,LArge-scale Video Interpolation Benchmark (LAVIB)を提案する。
LAVIBは、人間の検証に必要な最小限の要件を持つ自動化パイプラインを通じて、Webからソースされる高解像度ビデオの大規模なコレクションで構成されている。
各ビデオの運動の大きさ、輝度条件、フレームのシャープネス、コントラストについてメトリクスが計算される。
ビデオの収集とこれらのメトリクスに基づく定量的な課題の作成は、現在の低レベルなビデオタスクデータセットによって過小評価されている。
LAVIBには17KのUltra-HDビデオから283Kのクリップが含まれ、77.6時間に及ぶ。
ベンチマークトレイン、val、テストセットは、同様のビデオメトリック分布を維持している。
さらに分割は、異種属性のビデオを含む、トレーニングとテストの分割を含む、アウト・オブ・ディストリビューション(OOD)の課題のために作成される。
関連論文リスト
- Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding [15.959757105308238]
ビデオLMMは、視覚入力を処理するために、画像エンコーダまたはビデオエンコーダに依存しており、それぞれに独自の制限がある。
本稿では,映像エンコーダと映像エンコーダの相補的利点(大域的時間文脈モデリング)を組み合わせたビデオGPT+を紹介する。
本稿では,VCGBench,MVBench,Zero-shotなど,複数のビデオベンチマークのパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-06-13T17:59:59Z) - 1st Place Winner of the 2024 Pixel-level Video Understanding in the Wild (CVPR'24 PVUW) Challenge in Video Panoptic Segmentation and Best Long Video Consistency of Video Semantic Segmentation [11.331198234997714]
PVUW CVPR 2024(英語版)による第3のPixelレベルのビデオ理解は、映像理解における最先端技術の実現を目的としている。
本稿ではPVUW'24 VPSチャレンジで1位を獲得した私たちの研究成果を詳述する。
我々のソリューションは、巨大なビジョントランスフォーマーモデル(DINOv2 ViT-g)と、実証されたマルチステージデカップリングビデオインスタンスフレームワークの肩の上にあります。
論文 参考訳(メタデータ) (2024-06-08T04:43:08Z) - Video-Data Pipelines for Machine Learning Applications [0.9594432031144714]
提案するフレームワークは、MLバージョニング用の追加のビデオシーケンスデータセットに拡張することができる。
本稿では,オブジェクト検出アルゴリズムのバージョニングと監視のためのビデオデータパイプラインの性能解析を行う。
論文 参考訳(メタデータ) (2021-10-15T20:28:56Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。