論文の概要: LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event
Boundary Captioning
- arxiv url: http://arxiv.org/abs/2306.10354v1
- Date: Sat, 17 Jun 2023 13:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 22:46:18.472625
- Title: LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event
Boundary Captioning
- Title(参考訳): LLMVA-GEBC:ジェネリックイベント境界キャプション用ビデオアダプタ付き大言語モデル
- Authors: Yunlong Tang, Jinrui Zhang, Xiangchen Wang, Teng Wang, Feng Zheng
- Abstract要約: 本稿では,LLMVA-GEBC(ジェネリックイベント境界キャプション用ビデオアダプタ付き大規模言語モデル)を提案する。
提案手法は,テストセットの76.14点を達成し,第1位を獲得した。
- 参考スコア(独自算出の注目度): 33.041935488031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our winning entry for the CVPR 2023 Generic Event Boundary Captioning (GEBC)
competition is detailed in this paper. Unlike conventional video captioning
tasks, GEBC demands that the captioning model possess an understanding of
immediate changes in status around the designated video boundary, making it a
difficult task. This paper proposes an effective model LLMVA-GEBC (Large
Language Model with Video Adapter for Generic Event Boundary Captioning): (1)
We utilize a pretrained LLM for generating human-like captions with high
quality. (2) To adapt the model to the GEBC task, we take the video Q-former as
an adapter and train it with the frozen visual feature extractors and LLM. Our
proposed method achieved a 76.14 score on the test set and won the first place
in the challenge. Our code is available at
https://github.com/zjr2000/LLMVA-GEBC .
- Abstract(参考訳): 本稿では,CVPR 2023ジェネリックイベント境界キャプション(GEBC)コンペティションの優勝について述べる。
従来のビデオキャプションタスクとは異なり、GABCはキャプションモデルに対して、指定されたビデオ境界付近のステータスの即時変化を理解することを要求する。
本稿では, LLMVA-GEBC (Large Language Model with Video Adapter for Generic Event Boundary Captioning): 1) トレーニング済みのLLMを用いて, 高品質な字幕を生成する。
2) GEBC タスクにモデルを適応させるために,ビデオ Q-former をアダプタとして,凍結した視覚特徴抽出器と LLM でトレーニングする。
提案手法は,テストセットの76.14点を達成し,第1位を獲得した。
私たちのコードはhttps://github.com/zjr2000/LLMVA-GEBCで利用可能です。
関連論文リスト
- Text-Conditioned Resampler For Long Form Video Understanding [101.7267777444705]
タスクの長いビデオシーケンスを処理するために,テキスト条件付きビデオリサンプラー(TCR)モジュールを提案する。
TCRは、テキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、テキスト応答を生成するために大きな言語モデルを提供する。
軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上を一度に処理できるため、以前の作品よりもずっと長いビデオのチャンクを使用することができる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning [93.6842670770983]
Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
論文 参考訳(メタデータ) (2023-02-27T19:53:49Z) - Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners [47.59597017035785]
本稿では、事前訓練された画像テキストコントラストキャプタ(CoCa)モデルを再利用し、ビデオテキストタスクに適応するVideoCoCaを提案する。
VideoCoCaのゼロショット転送ベースラインは、ゼロショットビデオ分類に関する最先端の結果をすでに達成している。
我々のアプローチは、将来の研究のためのシンプルで効果的なビデオテキストベースラインを確立する。
論文 参考訳(メタデータ) (2022-12-09T16:39:09Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Dual-Stream Transformer for Generic Event Boundary Captioning [25.661340616977107]
本稿では,CVPR2022ジェネリックイベント境界キャプタリング(GEBC)コンペティションのチャンピオンソリューションについて述べる。
本稿では,映像コンテンツエンコーディングとキャプション生成の両方を改善したDual-Stream Transformerを提案する。
論文 参考訳(メタデータ) (2022-07-07T01:47:19Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。