論文の概要: Revealing Single Frame Bias for Video-and-Language Learning
- arxiv url: http://arxiv.org/abs/2206.03428v1
- Date: Tue, 7 Jun 2022 16:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:13:09.026746
- Title: Revealing Single Frame Bias for Video-and-Language Learning
- Title(参考訳): 映像・言語学習のための単一フレームバイアスの解明
- Authors: Jie Lei, Tamara L. Berg, Mohit Bansal
- Abstract要約: 単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
- 参考スコア(独自算出の注目度): 115.01000652123882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training an effective video-and-language model intuitively requires multiple
frames as model inputs. However, it is unclear whether using multiple frames is
beneficial to downstream tasks, and if yes, whether the performance gain is
worth the drastically-increased computation and memory costs resulting from
using more frames. In this work, we explore single-frame models for
video-and-language learning. On a diverse set of video-and-language tasks
(including text-to-video retrieval and video question answering), we show the
surprising result that, with large-scale pre-training and a proper frame
ensemble strategy at inference time, a single-frame trained model that does not
consider temporal information can achieve better performance than existing
methods that use multiple frames for training. This result reveals the
existence of a strong "static appearance bias" in popular video-and-language
datasets. Therefore, to allow for a more comprehensive evaluation of
video-and-language models, we propose two new retrieval tasks based on existing
fine-grained action recognition datasets that encourage temporal modeling. Our
code is available at https://github.com/jayleicn/singularity
- Abstract(参考訳): 効果的なビデオと言語モデルを直感的にトレーニングするには、モデル入力として複数のフレームが必要である。
しかし、複数のフレームを使うことが下流のタスクに有益かどうかは不明であり、パフォーマンス向上に価値があるかどうかは、より多くのフレームを使用することによって生じる計算コストとメモリコストを大幅に増加させる。
本研究では,ビデオ・言語学習のための単一フレームモデルについて検討する。
テキスト・ツー・ビデオ検索やビデオ質問応答を含む多種多様なタスクにおいて,大規模事前学習と推論時の適切なフレームアンサンブル戦略により,時間的情報を考慮しない単一フレーム学習モデルは,訓練に複数のフレームを使用する既存手法よりも優れた性能が得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを示している。
そこで本稿では,ビデオ・言語モデルのより包括的な評価を可能にするために,時間的モデリングを奨励する既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
私たちのコードはhttps://github.com/jayleicn/singularityで利用可能です。
関連論文リスト
- Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。