論文の概要: VideoGLUE: Video General Understanding Evaluation of Foundation Models
- arxiv url: http://arxiv.org/abs/2307.03166v3
- Date: Thu, 24 Oct 2024 22:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:34:35.489780
- Title: VideoGLUE: Video General Understanding Evaluation of Foundation Models
- Title(参考訳): VideoGLUE: 基礎モデルの総合的評価
- Authors: Liangzhe Yuan, Nitesh Bharadwaj Gundavarapu, Long Zhao, Hao Zhou, Yin Cui, Lu Jiang, Xuan Yang, Menglin Jia, Tobias Weyand, Luke Friedman, Mikhail Sirotenko, Huisheng Wang, Florian Schroff, Hartwig Adam, Ming-Hsuan Yang, Ting Liu, Boqing Gong,
- Abstract要約: 我々は、慎重に設計された実験プロトコルを用いて、基礎モデル(FM)の映像理解能力を評価する。
一般的な映像理解タスクに適応する際のFMの目印と有効性について共同で検討する。
- 参考スコア(独自算出の注目度): 89.07145427268948
- License:
- Abstract: We evaluate the video understanding capabilities of existing foundation models (FMs) using a carefully designed experiment protocol consisting of three hallmark tasks (action recognition,temporal localization, and spatiotemporal localization), eight datasets well received by the community, and four adaptation methods tailoring an FM for downstream tasks. Furthermore, we jointly profile FMs' efficacy and efficiency when adapting to general video understanding tasks using cost measurements during both training and inference. Our main findings areas follows. First, task-specialized models significantly outperform the seven FMs studied in this work, in sharp contrast to what FMs have achieved in natural language and image understanding. Second, video-native FMs, whose pretraining data mainly contains the video modality, are generally better than image-native FMs in classifying motion-rich videos, localizing actions in time, and understanding a video of more than one action. Third, the video-native FMs can perform well on video tasks under light adaptations to downstream tasks (e.g., freezing the FM backbones), while image-native FMs win in full end-to-end finetuning. The first two observations reveal the need and tremendous opportunities to conduct research on video-focused FMs, and the last confirms that both tasks and adaptation methods matter when it comes to the evaluation of FMs. Our code is released under: https://github.com/tensorflow/models/tree/master/official/projects/videoglue.
- Abstract(参考訳): 既存の基礎モデル(FM)の映像理解能力は,3つの目印タスク(行動認識,時間的局所化,時空間的局所化)と,コミュニティがよく受信した8つのデータセット,下流タスクに適した4つの適応手法からなる,慎重に設計された実験プロトコルを用いて評価した。
さらに,トレーニングと推論の双方におけるコスト測定を用いて,一般的な映像理解タスクに適応する際のFMの有効性と効率を共同で評価した。
主な発見領域は以下の通りである。
第一に、タスク特化モデルは、自然言語や画像理解においてFMが達成したものとは対照的に、本研究で研究した7つのFMよりも著しく優れている。
第2に、ビデオネイティブFMは、主にビデオモダリティを含む事前学習データであり、一般的に、モーションリッチなビデオの分類、時間内のアクションのローカライズ、複数のアクションのビデオ理解において、画像ネイティブFMよりも優れている。
第3に、ビデオネイティブのFMは、ダウンストリームタスク(例えば、FMバックボーンを凍結する)に光順応したビデオタスクで良好に動作し、画像ネイティブのFMは、完全なエンドツーエンドの微調整で勝利する。
最初の2つの観察は、ビデオ中心のFMの研究を行う必要性と素晴らしい機会を明らかにし、最後の2つは、FMの評価に関して、タスクと適応方法の両方が重要であることを確認している。
私たちのコードは、https://github.com/tensorflow/models/tree/master/official/projects/videoglueでリリースされています。
関連論文リスト
- Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [28.883607056108605]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model [22.188795668927586]
ビデオファウンデーションモデル(VFM)は近年大きな進歩を遂げている。
既存のベンチマークと評価プロトコルは、比較的低い多様性、高い評価コスト、飽和したパフォーマンスメトリクスによって制限されることが多い。
これらの問題、すなわちVideoEvalに対処するための包括的なベンチマークスイートを構築しています。
論文 参考訳(メタデータ) (2024-07-09T01:49:08Z) - On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文 参考訳(メタデータ) (2024-06-14T14:37:52Z) - FedPFT: Federated Proxy Fine-Tuning of Foundation Models [55.58899993272904]
フェデレートラーニング(FL)を通じて下流タスクにファンデーションモデル(FM)を適用することは、データプライバシと価値のあるFMを保護するための有望な戦略として現れます。
FLのクライアントにサブFMを割り当てることによる既存のFMの微調整手法は、チューニングが不十分で勾配の必然的エラー蓄積が避けられないため、最適以下の性能をもたらす。
本稿では,FedPFT(Federated Proxy Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2024-04-17T16:30:06Z) - Development of a Reliable and Accessible Caregiving Language Model
(CaLM) [1.1487735059279973]
本研究の目的は、FMと介護知識ベースを用いて、信頼できる介護言語モデル(CaLM)を開発することである。
FMファインチューニングと組み合わせて, FM応答の質を向上させるために, Retrieval Augmented Generation (RAG) フレームワークを用いた CaLM を開発した。
本研究は,介護領域に特有の知識ベースを持つ小型FMを用いて,信頼性の高いCaLMを開発可能であることを示す。
論文 参考訳(メタデータ) (2024-03-11T16:12:34Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Leaf-FM: A Learnable Feature Generation Factorization Machine for
Click-Through Rate Prediction [2.412497918389292]
本稿では,FM に基づく LeafFM モデルを提案する。
実世界の3つのデータセットで実験を行い、その結果、Leaf-FMモデルは標準FMよりも大きなマージンで優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T08:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。