論文の概要: AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
- arxiv url: http://arxiv.org/abs/2410.03051v1
- Date: Fri, 4 Oct 2024 00:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 04:16:10.882247
- Title: AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
- Title(参考訳): AuroraCap: 効率的でパフォーマンスのよいビデオのキャプションとベンチマーク
- Authors: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning,
- Abstract要約: 大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 73.62572976072578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video detailed captioning is a key task which aims to generate comprehensive and coherent textual descriptions of video content, benefiting both video understanding and generation. In this paper, we propose AuroraCap, a video captioner based on a large multimodal model. We follow the simplest architecture design without additional parameters for temporal modeling. To address the overhead caused by lengthy video sequences, we implement the token merging strategy, reducing the number of input visual tokens. Surprisingly, we found that this strategy results in little performance loss. AuroraCap shows superior performance on various video and image captioning benchmarks, for example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include simple descriptions, consisting of a few dozen words, which limits research in this field. Therefore, we develop VDC, a video detailed captioning benchmark with over one thousand carefully annotated structured captions. In addition, we propose a new LLM-assisted metric VDCscore for bettering evaluation, which adopts a divide-and-conquer strategy to transform long caption evaluation into multiple short question-answer pairs. With the help of human Elo ranking, our experiments show that this benchmark better correlates with human judgments of video detailed captioning quality.
- Abstract(参考訳): ビデオの詳細なキャプションは、ビデオコンテンツの包括的で一貫性のあるテキスト記述を生成することを目的としており、ビデオの理解と生成の両方に役立っている。
本稿では,大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
時間的モデリングのためのパラメータを追加せずに、最もシンプルなアーキテクチャ設計に従う。
長大なビデオシーケンスによるオーバーヘッドに対処するため、私たちはトークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
驚いたことに、この戦略によってパフォーマンスがほとんど損なわれることがわかりました。
例えば、Flickr30kで88.9のCIDErを取得し、GPT-4V (55.3)とGemini-1.5 Pro (82.2)を上回った。
しかし、既存のビデオキャプションベンチマークには、いくつかの単語からなる単純な記述のみが含まれており、この分野の研究は制限されている。
そこで我々は,千以上の注意深い注釈付き字幕を持つビデオ詳細な字幕ベンチマークであるVDCを開発した。
さらに,長いキャプション評価を複数の短い質問応答対に変換する分割・問合せ戦略を採用したLCM支援メトリックVDCスコアを提案する。
人間のEloランキングの助けを借りて、このベンチマークはビデオのキャプション品質に関する人間の判断と相関していることを示す。
関連論文リスト
- ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - Video ReCap: Recursive Captioning of Hour-Long Videos [42.878517455453824]
Video ReCapは、1秒から2時間までの動画入力を劇的に異なる長さで処理し、複数の階層レベルで動画キャプションを出力することができる。
ビデオの階層構造を,クリップレベルのキャプションからセグメントレベルの記述に至るまで,カリキュラム学習方式を用いて学習する。
我々のモデルは、様々な階層レベルのキャプションを柔軟に生成できると同時に、他の複雑なビデオ理解タスクにも有用である。
論文 参考訳(メタデータ) (2024-02-20T18:58:54Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Video Captioning: a comparative review of where we are and which could
be the route [0.21301560294088315]
ビデオキャプションは、その意味的関係と意味をキャプチャする一連の画像の内容を記述するプロセスである。
この写本は2016年から2021年までの期間に105以上の論文を広範囲にレビューしている。
論文 参考訳(メタデータ) (2022-04-12T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。