論文の概要: Vript: A Video Is Worth Thousands of Words
- arxiv url: http://arxiv.org/abs/2406.06040v2
- Date: Fri, 25 Oct 2024 06:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:34:31.932303
- Title: Vript: A Video Is Worth Thousands of Words
- Title(参考訳): Vript:ビデオは何千もの単語の価値がある
- Authors: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao,
- Abstract要約: Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
- 参考スコア(独自算出の注目度): 54.815686588378156
- License:
- Abstract: Advancements in multimodal learning, particularly in video understanding and generation, require high-quality video-text datasets for improved model performance. Vript addresses this issue with a meticulously annotated corpus of 12K high-resolution videos, offering detailed, dense, and script-like captions for over 420K clips. Each clip has a caption of ~145 words, which is over 10x longer than most video-text datasets. Unlike captions only documenting static content in previous datasets, we enhance video captioning to video scripting by documenting not just the content, but also the camera operations, which include the shot types (medium shot, close-up, etc) and camera movements (panning, tilting, etc). By utilizing the Vript, we explore three training paradigms of aligning more text with the video modality rather than clip-caption pairs. This results in Vriptor, a top-performing video captioning model among open-source models, comparable to GPT-4V in performance. Vriptor is also a powerful model capable of end-to-end generation of dense and detailed captions for long videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three video understanding tasks that are more challenging than existing benchmarks: Vript-HAL is the first benchmark evaluating action and object hallucinations in video LLMs, Vript-RR combines reasoning with retrieval resolving question ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the temporal understanding of events in long videos rather than actions in short videos in previous works. All code, models, and datasets are available in https://github.com/mutonix/Vript. PS: We have included more video-text datasets (Vript_CN & Vript_Multilingual) in the Vript series.
- Abstract(参考訳): マルチモーダル学習の進歩、特にビデオ理解と生成は、モデル性能を改善するために高品質なビデオテキストデータセットを必要とする。
Vriptは12Kの高解像度ビデオの微妙な注釈付きコーパスでこの問題に対処し、詳細で密度が高く、スクリプト風のキャプションを420Kのクリップで提供する。
各クリップには約145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
従来のデータセットで静的なコンテンツのみを文書化するキャプションとは異なり、ビデオキャプションは、コンテンツだけでなく、ショットタイプ(ミアムショット、クローズアップなど)やカメラの動き(パンニング、傾きなど)を含むカメラ操作も記録することで、ビデオスクリプティングに拡張する。
Vriptを利用することで、クリップキャプションペアではなく、より多くのテキストをビデオモダリティと整合させる3つのトレーニングパラダイムを探索する。
これにより、GPT-4Vのパフォーマンスに匹敵する、オープンソースのモデルの中で最高のパフォーマンスの動画キャプションモデルであるVriptorが得られる。
Vriptorはまた、ロングビデオ用の高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
さらに、Vript-HALは、既存のベンチマークよりも難しい3つのビデオ理解タスクからなるベンチマークであるVript-Hardを紹介した。Vript-HALは、ビデオLLMにおけるアクションとオブジェクトの幻覚を評価する最初のベンチマークであり、Vript-RRは、長いビデオQAにおける質問のあいまいさを検索と組み合わせ、Vript-EROは、以前のビデオでのアクションではなく、長いビデオにおけるイベントの時間的理解を評価するための新しいタスクである。
すべてのコード、モデル、データセットはhttps://github.com/mutonix/Vript.comで入手できる。
PS: Vriptシリーズには、より多くのビデオテキストデータセット(Vript_CNとVript_Multilingual)が含まれています。
関連論文リスト
- PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance [44.08446730529495]
トークン圧縮と命令対応の視覚的特徴集約を同時に実現する新しいプーリング戦略を提案する。
我々のモデルはPPLLaVA(Prompt-guided Pooling LLaVA)と呼ばれる。
論文 参考訳(メタデータ) (2024-11-04T17:50:36Z) - ShareGPT4Video: Improving Video Understanding and Generation with Better Captions [93.29360532845062]
本稿では,大容量ビデオ言語モデル(LVLM)の映像理解と,高密度かつ高精度なキャプションによるテキスト・ツー・ビデオモデル(T2VM)のビデオ生成を目的としたShareGPT4Videoシリーズを紹介する。
ShareGPT4Video, 40K GPT4V Annotated dense Casts of video with various lengths and sources, developed through carefully designed data filtering and annotating strategy。
さらに,任意の動画に対して高品質なキャプションを効率よく生成できる優れたキャプションキャプタであるShareCaptioner-Videoを開発した。
論文 参考訳(メタデータ) (2024-06-06T17:58:54Z) - A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。