論文の概要: LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event
Boundary Captioning
- arxiv url: http://arxiv.org/abs/2306.10354v1
- Date: Sat, 17 Jun 2023 13:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 22:46:18.472625
- Title: LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event
Boundary Captioning
- Title(参考訳): LLMVA-GEBC:ジェネリックイベント境界キャプション用ビデオアダプタ付き大言語モデル
- Authors: Yunlong Tang, Jinrui Zhang, Xiangchen Wang, Teng Wang, Feng Zheng
- Abstract要約: 本稿では,LLMVA-GEBC(ジェネリックイベント境界キャプション用ビデオアダプタ付き大規模言語モデル)を提案する。
提案手法は,テストセットの76.14点を達成し,第1位を獲得した。
- 参考スコア(独自算出の注目度): 33.041935488031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our winning entry for the CVPR 2023 Generic Event Boundary Captioning (GEBC)
competition is detailed in this paper. Unlike conventional video captioning
tasks, GEBC demands that the captioning model possess an understanding of
immediate changes in status around the designated video boundary, making it a
difficult task. This paper proposes an effective model LLMVA-GEBC (Large
Language Model with Video Adapter for Generic Event Boundary Captioning): (1)
We utilize a pretrained LLM for generating human-like captions with high
quality. (2) To adapt the model to the GEBC task, we take the video Q-former as
an adapter and train it with the frozen visual feature extractors and LLM. Our
proposed method achieved a 76.14 score on the test set and won the first place
in the challenge. Our code is available at
https://github.com/zjr2000/LLMVA-GEBC .
- Abstract(参考訳): 本稿では,CVPR 2023ジェネリックイベント境界キャプション(GEBC)コンペティションの優勝について述べる。
従来のビデオキャプションタスクとは異なり、GABCはキャプションモデルに対して、指定されたビデオ境界付近のステータスの即時変化を理解することを要求する。
本稿では, LLMVA-GEBC (Large Language Model with Video Adapter for Generic Event Boundary Captioning): 1) トレーニング済みのLLMを用いて, 高品質な字幕を生成する。
2) GEBC タスクにモデルを適応させるために,ビデオ Q-former をアダプタとして,凍結した視覚特徴抽出器と LLM でトレーニングする。
提案手法は,テストセットの76.14点を達成し,第1位を獲得した。
私たちのコードはhttps://github.com/zjr2000/LLMVA-GEBCで利用可能です。
関連論文リスト
- Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-11-12T06:44:24Z) - TRACE: Temporal Grounding Video LLM via Causal Event Modeling [6.596327795743185]
ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。
現在のビデオLLMは自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がない。
本稿では,映像をイベントのシーケンスとして表現する因果イベントモデリングフレームワークを導入し,過去のイベントやビデオ入力,テクスチャインストラクションを用いて現在のイベントを予測する。
本稿では,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
論文 参考訳(メタデータ) (2024-10-08T02:46:30Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [26.72068455284472]
Video-XLは、時間スケールの効率的なビデオ理解のために設計された、超長い視覚言語モデルである。
我々のモデルは、人気のある長大映像理解ベンチマークにおいて有望な結果を得る。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。
既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。
本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T02:25:12Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense
Video Captioning [93.6842670770983]
Vid2Seqは、ナレーション付きビデオで事前訓練されたマルチモーダルなシングルステージのイベントキャプションモデルである。
本研究では, 文境界を擬似事象境界として再構成することにより, ラベル付きナレーション付き動画を高密度映像キャプションに活用可能であることを示す。
YT-Temporal-1Bデータセットで事前トレーニングされた結果のVid2Seqモデルは、さまざまな高密度ビデオキャプションベンチマーク上でのテクニックの状態を改善する。
論文 参考訳(メタデータ) (2023-02-27T19:53:49Z) - Dual-Stream Transformer for Generic Event Boundary Captioning [25.661340616977107]
本稿では,CVPR2022ジェネリックイベント境界キャプタリング(GEBC)コンペティションのチャンピオンソリューションについて述べる。
本稿では,映像コンテンツエンコーディングとキャプション生成の両方を改善したDual-Stream Transformerを提案する。
論文 参考訳(メタデータ) (2022-07-07T01:47:19Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。