論文の概要: VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation
- arxiv url: http://arxiv.org/abs/2106.04632v1
- Date: Tue, 8 Jun 2021 18:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:29:13.067956
- Title: VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation
- Title(参考訳): VALUE:ビデオ・ランゲージ理解評価のためのマルチタスクベンチマーク
- Authors: Linjie Li, Jie Lei, Zhe Gan, Licheng Yu, Yen-Chun Chen, Rohit Pillai,
Yu Cheng, Luowei Zhou, Xin Eric Wang, William Yang Wang, Tamara Lee Berg,
Mohit Bansal, Jingjing Liu, Lijuan Wang, Zicheng Liu
- Abstract要約: VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
- 参考スコア(独自算出の注目度): 124.02278735049235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most existing video-and-language (VidL) research focuses on a single dataset,
or multiple datasets of a single task. In reality, a truly useful VidL system
is expected to be easily generalizable to diverse tasks, domains, and datasets.
To facilitate the evaluation of such systems, we introduce Video-And-Language
Understanding Evaluation (VALUE) benchmark, an assemblage of 11 VidL datasets
over 3 popular tasks: (i) text-to-video retrieval; (ii) video question
answering; and (iii) video captioning. VALUE benchmark aims to cover a broad
range of video genres, video lengths, data volumes, and task difficulty levels.
Rather than focusing on single-channel videos with visual information only,
VALUE promotes models that leverage information from both video frames and
their associated subtitles, as well as models that share knowledge across
multiple tasks. We evaluate various baseline methods with and without
large-scale VidL pre-training, and systematically investigate the impact of
video input channels, fusion methods, and different video representations. We
also study the transferability between tasks, and conduct multi-task learning
under different settings. The significant gap between our best model and human
performance calls for future study for advanced VidL models. VALUE is available
at https://value-leaderboard.github.io/.
- Abstract(参考訳): 既存のビデオ・アンド・ランゲージ(VidL)研究のほとんどは、1つのデータセット、または1つのタスクの複数のデータセットに焦点を当てている。
実際、本当に有用なVidLシステムは、多様なタスク、ドメイン、データセットに容易に一般化できると期待されている。
このようなシステムの評価を容易にするために,VALUE (Video-And-Language Understanding Evaluation) ベンチマーク,(i) テキスト・ツー・ビデオ検索,(ii) ビデオ質問応答,(iii) ビデオキャプションという3つの一般的なタスクに対して,11のVidLデータセットの組付けを行う。
value benchmarkは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスク難易度レベルをカバーすることを目的としている。
ビジュアル情報のみのシングルチャネルビデオに重点を置くのではなく、valueは、ビデオフレームと関連するサブタイトルの両方の情報を活用するモデルと、複数のタスクで知識を共有するモデルを促進する。
大規模なVidL事前学習を行ない,様々なベースライン手法の評価を行い,ビデオ入力チャネル,融合方法,異なる映像表現の影響を系統的に検討した。
また,タスク間の転送可能性を調査し,異なる設定下でマルチタスク学習を行う。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
valueはhttps://value-leaderboard.github.io/で入手できる。
関連論文リスト
- DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning [2.4121373594852846]
マルチタスク学習は、視覚的なタスクが、共同トレーニング中に他のタスクから豊富な共有可能な知識を取得するようにする。
上記の問題に対処するために, Heterogenous data video multi-task prompt learning (VMTL) 法を提案する。
Double-Layers Mapper(DLM)は、共有可能な知識を視覚的プロンプトSに抽出し、プライマリタスクの表現と整合させる。
論文 参考訳(メタデータ) (2024-08-29T01:25:36Z) - Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。