論文の概要: VideoGLUE: Video General Understanding Evaluation of Foundation Models
- arxiv url: http://arxiv.org/abs/2307.03166v1
- Date: Thu, 6 Jul 2023 17:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 13:08:50.754550
- Title: VideoGLUE: Video General Understanding Evaluation of Foundation Models
- Title(参考訳): VideoGLUE: 基礎モデルの総合的評価
- Authors: Liangzhe Yuan, Nitesh Bharadwaj Gundavarapu, Long Zhao, Hao Zhou, Yin
Cui, Lu Jiang, Xuan Yang, Menglin Jia, Tobias Weyand, Luke Friedman, Mikhail
Sirotenko, Huisheng Wang, Florian Schroff, Hartwig Adam, Ming-Hsuan Yang,
Ting Liu, Boqing Gong
- Abstract要約: 3つのタスクからなる慎重に設計された実験を用いて,既存の基礎モデルによる映像理解能力の評価を行った。
一般的なビデオ理解タスクに適応する際のFMの有効性と効率を測定するために,ビデオGLUEスコア(VGS)を提案する。
- 参考スコア(独自算出の注目度): 89.21828942403553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate existing foundation models video understanding capabilities using
a carefully designed experiment protocol consisting of three hallmark tasks
(action recognition, temporal localization, and spatiotemporal localization),
eight datasets well received by the community, and four adaptation methods
tailoring a foundation model (FM) for a downstream task. Moreover, we propose a
scalar VideoGLUE score (VGS) to measure an FMs efficacy and efficiency when
adapting to general video understanding tasks. Our main findings are as
follows. First, task-specialized models significantly outperform the six FMs
studied in this work, in sharp contrast to what FMs have achieved in natural
language and image understanding. Second,video-native FMs, whose pretraining
data contains the video modality, are generally better than image-native FMs in
classifying motion-rich videos, localizing actions in time, and understanding a
video of more than one action. Third, the video-native FMs can perform well on
video tasks under light adaptations to downstream tasks(e.g., freezing the FM
backbones), while image-native FMs win in full end-to-end finetuning. The first
two observations reveal the need and tremendous opportunities to conduct
research on video-focused FMs, and the last confirms that both tasks and
adaptation methods matter when it comes to the evaluation of FMs.
- Abstract(参考訳): 本研究では,3つのホールマークタスク(動作認識,時間的局所化,時空間的局所化),コミュニティが受け取りやすい8つのデータセット,下流タスクのための基盤モデル(fm)を調整した4つの適応手法を用いて,既存の基礎モデルビデオ理解能力を評価した。
さらに,一般的な映像理解タスクに適応する際のfmsの有効性と効率を測定するためのスカラービデオグルスコア(vgs)を提案する。
主な発見は以下の通りである。
第一に、タスク特化モデルは、自然言語や画像理解においてFMが達成したものとは対照的に、本研究で研究した6つのFMよりも著しく優れている。
第2に、動画モダリティを含む事前トレーニングデータを持つビデオネイティブfmsは、モーションリッチビデオの分類、時間内のアクションのローカライズ、複数のアクションのビデオの理解において、画像ネイティブfmsよりも一般的に優れている。
第3に、ビデオネイティブFMは、ダウンストリームタスク(例えば、FMバックボーンの凍結)に光順応したビデオタスクでうまく機能し、画像ネイティブFMは、完全なエンドツーエンドの微調整で勝利する。
最初の2つの観察により、ビデオ中心のfmsの研究を行う必要性と膨大な機会が明らかとなり、最後に、fmsの評価に関してタスクと適応方法の両方が重要であることが確認された。
関連論文リスト
- Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [28.883607056108605]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model [22.188795668927586]
ビデオファウンデーションモデル(VFM)は近年大きな進歩を遂げている。
既存のベンチマークと評価プロトコルは、比較的低い多様性、高い評価コスト、飽和したパフォーマンスメトリクスによって制限されることが多い。
これらの問題、すなわちVideoEvalに対処するための包括的なベンチマークスイートを構築しています。
論文 参考訳(メタデータ) (2024-07-09T01:49:08Z) - On the Evaluation of Speech Foundation Models for Spoken Language Understanding [87.52911510306011]
Spoken Language Understanding Evaluation (SLUE) というベンチマークタスクスイートが最近導入され、オープンリソースやベンチマークの必要性に対処している。
このベンチマークは、これらのSLUタスクに事前訓練された音声基礎モデル(SFM)を使用することで、予備的な成功を収めた。
どのSFMがこれらの複雑なSLUタスクに最も恩恵をもたらすか、そしてこれらのSFMを組み込む上で最も効果的なアプローチは何か?
論文 参考訳(メタデータ) (2024-06-14T14:37:52Z) - FedPFT: Federated Proxy Fine-Tuning of Foundation Models [55.58899993272904]
フェデレートラーニング(FL)を通じて下流タスクにファンデーションモデル(FM)を適用することは、データプライバシと価値のあるFMを保護するための有望な戦略として現れます。
FLのクライアントにサブFMを割り当てることによる既存のFMの微調整手法は、チューニングが不十分で勾配の必然的エラー蓄積が避けられないため、最適以下の性能をもたらす。
本稿では,FedPFT(Federated Proxy Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2024-04-17T16:30:06Z) - Development of a Reliable and Accessible Caregiving Language Model
(CaLM) [1.1487735059279973]
本研究の目的は、FMと介護知識ベースを用いて、信頼できる介護言語モデル(CaLM)を開発することである。
FMファインチューニングと組み合わせて, FM応答の質を向上させるために, Retrieval Augmented Generation (RAG) フレームワークを用いた CaLM を開発した。
本研究は,介護領域に特有の知識ベースを持つ小型FMを用いて,信頼性の高いCaLMを開発可能であることを示す。
論文 参考訳(メタデータ) (2024-03-11T16:12:34Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Leaf-FM: A Learnable Feature Generation Factorization Machine for
Click-Through Rate Prediction [2.412497918389292]
本稿では,FM に基づく LeafFM モデルを提案する。
実世界の3つのデータセットで実験を行い、その結果、Leaf-FMモデルは標準FMよりも大きなマージンで優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T08:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。