論文の概要: Foundation Models for Video Understanding: A Survey
- arxiv url: http://arxiv.org/abs/2405.03770v1
- Date: Mon, 6 May 2024 18:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 18:14:30.670849
- Title: Foundation Models for Video Understanding: A Survey
- Title(参考訳): ビデオ理解のための基礎モデル:調査
- Authors: Neelu Madan, Andreas Moegelmose, Rajat Modi, Yogesh S. Rawat, Thomas B. Moeslund,
- Abstract要約: ビデオファウンデーションモデル(ViFM)は、様々なビデオ理解タスクの汎用表現を学習することを目的としている。
このサーベイは200以上のビデオ基礎モデルを分析し、14の異なるビデオタスクにわたるベンチマークと評価指標の包括的な概要を提供する。
- 参考スコア(独自算出の注目度): 26.52064059342181
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video Foundation Models (ViFMs) aim to learn a general-purpose representation for various video understanding tasks. Leveraging large-scale datasets and powerful models, ViFMs achieve this by capturing robust and generic features from video data. This survey analyzes over 200 video foundational models, offering a comprehensive overview of benchmarks and evaluation metrics across 14 distinct video tasks categorized into 3 main categories. Additionally, we offer an in-depth performance analysis of these models for the 6 most common video tasks. We categorize ViFMs into three categories: 1) Image-based ViFMs, which adapt existing image models for video tasks, 2) Video-Based ViFMs, which utilize video-specific encoding methods, and 3) Universal Foundational Models (UFMs), which combine multiple modalities (image, video, audio, and text etc.) within a single framework. By comparing the performance of various ViFMs on different tasks, this survey offers valuable insights into their strengths and weaknesses, guiding future advancements in video understanding. Our analysis surprisingly reveals that image-based foundation models consistently outperform video-based models on most video understanding tasks. Additionally, UFMs, which leverage diverse modalities, demonstrate superior performance on video tasks. We share the comprehensive list of ViFMs studied in this work at: \url{https://github.com/NeeluMadan/ViFM_Survey.git}
- Abstract(参考訳): ビデオファウンデーションモデル(ViFM)は、様々なビデオ理解タスクの汎用表現を学習することを目的としている。
大規模なデータセットと強力なモデルを活用することで、ビデオデータから堅牢で汎用的な機能をキャプチャすることで、ViFMはこれを実現する。
このサーベイは200以上のビデオ基礎モデルを分析し、ベンチマークと評価指標を3つの主要なカテゴリに分類した14の異なるビデオタスクに対して包括的に分析する。
さらに、最も一般的な6つのビデオタスクに対して、これらのモデルの詳細なパフォーマンス分析を提供する。
ViFMを3つのカテゴリに分類する。
1)既存の映像モデルを映像タスクに適応させる画像ベースのVFM。
2)ビデオ専用符号化方式を用いたビデオベースのVFM
3)Universal Foundational Models(UFM)は,複数のモダリティ(画像,ビデオ,音声,テキストなど)をひとつのフレームワークで結合する。
様々なタスクにおける様々なViFMの性能を比較することにより、この調査は、その強みと弱みに関する貴重な洞察を与え、ビデオ理解における今後の進歩を導く。
私たちの分析によると、ほとんどのビデオ理解タスクにおいて、画像ベースのファンデーションモデルは一貫してビデオベースのモデルより優れています。
さらに、多様なモダリティを利用するUFMは、ビデオタスクにおいて優れたパフォーマンスを示す。
この研究で研究されたViFMの包括的リストを以下に示す。
関連論文リスト
- VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model [22.188795668927586]
ビデオファウンデーションモデル(VFM)は近年大きな進歩を遂げている。
既存のベンチマークと評価プロトコルは、比較的低い多様性、高い評価コスト、飽和したパフォーマンスメトリクスによって制限されることが多い。
これらの問題、すなわちVideoEvalに対処するための包括的なベンチマークスイートを構築しています。
論文 参考訳(メタデータ) (2024-07-09T01:49:08Z) - Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs [20.168429351519055]
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
VideoNIAHは、関連のない画像/テキスト 'needles' をオリジナルビデオに挿入することで、クエリ応答からテストビデオコンテンツを分離する。
アノテーションはこれらの針からのみ生成され、ビデオソースの多様性と様々なクエリ応答が保証される。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - VideoGLUE: Video General Understanding Evaluation of Foundation Models [90.54934154766585]
我々は、慎重に設計された実験を用いて、既存の基礎モデル映像理解能力を評価する。
一般的なビデオ理解タスクに適応する際のFMの有効性と効率を測定するために,ビデオGLUEスコア(VGS)を提案する。
論文 参考訳(メタデータ) (2023-07-06T17:47:52Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Highlight Timestamp Detection Model for Comedy Videos via Multimodal
Sentiment Analysis [1.6181085766811525]
本研究では,この分野での最先端性能を得るためのマルチモーダル構造を提案する。
マルチモーダルビデオ理解のためのベンチマークをいくつか選択し、最適な性能を求めるのに最適なモデルを適用した。
論文 参考訳(メタデータ) (2021-05-28T08:39:19Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。