論文の概要: Learning Video Representations from Large Language Models
- arxiv url: http://arxiv.org/abs/2212.04501v1
- Date: Thu, 8 Dec 2022 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:00:10.271157
- Title: Learning Video Representations from Large Language Models
- Title(参考訳): 大規模言語モデルからビデオ表現を学ぶ
- Authors: Yue Zhao, Ishan Misra, Philipp Kr\"ahenb\"uhl, Rohit Girdhar
- Abstract要約: 我々はLarge Language Models(LLMs)を利用したビデオ言語表現学習の新しいアプローチであるLaViLaを紹介した。
我々は、事前学習したLLMを視覚入力で条件付けするために再利用し、それらを微調整して自動ビデオナレーターを作成する。
私たちの自動生成ナレーションには、長いビデオの密接なカバレッジ、視覚情報とテキストの時間同期の改善、テキストの多様性の向上など、多くの利点があります。
- 参考スコア(独自算出の注目度): 31.11998135196614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LaViLa, a new approach to learning video-language
representations by leveraging Large Language Models (LLMs). We repurpose
pre-trained LLMs to be conditioned on visual input, and finetune them to create
automatic video narrators. Our auto-generated narrations offer a number of
advantages, including dense coverage of long videos, better temporal
synchronization of the visual information and text, and much higher diversity
of text. The video-text embedding learned contrastively with these additional
auto-generated narrations outperforms the previous state-of-the-art on multiple
first-person and third-person video tasks, both in zero-shot and finetuned
setups. Most notably, LaViLa obtains an absolute gain of 10.1% on EGTEA
classification and 5.9% Epic-Kitchens-100 multi-instance retrieval benchmarks.
Furthermore, LaViLa trained with only half the narrations from the Ego4D
dataset outperforms baseline models trained on the full set, and shows positive
scaling behavior on increasing pre-training data and model size.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) を利用したビデオ言語表現学習手法であるLaViLaを紹介する。
我々は、事前学習したLLMを視覚入力で条件付けし、それらを微調整して自動ビデオナレーターを作成する。
私たちの自動生成ナレーションには、長いビデオの密接なカバレッジ、視覚情報とテキストの時間同期の改善、テキストの多様性の向上など、多くの利点があります。
ビデオテキスト埋め込みは、これらの追加の自動生成ナレーションと対照的に、ゼロショットと微調整のセットアップの両方で、複数のファースト・パーソン・ビデオ・タスクにおいて、以前の最先端のナレーションよりも優れています。
LaViLaはEGTEA分類で10.1%、Epic-Kitchens-100マルチインスタンス検索ベンチマークで5.9%の絶対ゲインを得た。
さらに、LaViLaは、Ego4Dデータセットのナレーションのわずか半分でトレーニングされ、フルセットでトレーニングされたベースラインモデルを上回っ、事前トレーニングデータの増加とモデルサイズに対するポジティブなスケーリング挙動を示している。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Distilling Vision-Language Models on Millions of Videos [62.92789440875999]
合成した指導データを用いて,映像言語ベースラインから映像言語モデルを微調整する。
ビデオインストラクションチューニング(VIIT)によって生成されたビデオモデルは、高品質なキャプションを生成するために何百万ものビデオの自動ラベル付けに使用される。
副産物として、これまでで最大のビデオキャプションデータセットを生成します。
論文 参考訳(メタデータ) (2024-01-11T18:59:53Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning [39.80936685227549]
大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-12T09:08:27Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文 参考訳(メタデータ) (2021-11-19T17:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。