論文の概要: CREATE: A Benchmark for Chinese Short Video Retrieval and Title
Generation
- arxiv url: http://arxiv.org/abs/2203.16763v1
- Date: Thu, 31 Mar 2022 02:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 07:08:36.384207
- Title: CREATE: A Benchmark for Chinese Short Video Retrieval and Title
Generation
- Title(参考訳): CREATE:中国のショートビデオ検索とタイトル生成のためのベンチマーク
- Authors: Ziqi Zhang, Yuxin Chen, Zongyang Ma, Zhongang Qi, Chunfeng Yuan, Bing
Li, Ying Shan, Weiming Hu
- Abstract要約: そこで本研究では,中国初の大規模ShoRt vidEo retrievAlおよびTitle gEnベンチマークであるCREATEを提案する。
CREATEは、高品質なラベル付き210Kデータセットと、2つの大規模3M/10M事前トレーニングデータセットで構成されており、51のカテゴリ、50K以上のタグ、537Kマニュアルの注釈付きタイトルとキャプション、10M以上のショートビデオを含んでいる。
CREATEに基づいて、マルチモーダルアライメントWIの目的を達成するために、ビデオ検索とビデオタイトリングタスクを組み合わせた新しいモデルALWIGを提案する。
- 参考スコア(独自算出の注目度): 54.7561946475866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works of video captioning aim to objectively describe the video's
actual content, which lacks subjective and attractive expression, limiting its
practical application scenarios. Video titling is intended to achieve this
goal, but there is a lack of a proper benchmark. In this paper, we propose to
CREATE, the first large-scale Chinese shoRt vidEo retrievAl and Title
gEneration benchmark, to facilitate research and application in video titling
and video retrieval in Chinese. CREATE consists of a high-quality labeled 210K
dataset and two large-scale 3M/10M pre-training datasets, covering 51
categories, 50K+ tags, 537K manually annotated titles and captions, and 10M+
short videos. Based on CREATE, we propose a novel model ALWIG which combines
video retrieval and video titling tasks to achieve the purpose of multi-modal
ALignment WIth Generation with the help of video tags and a GPT pre-trained
model. CREATE opens new directions for facilitating future research and
applications on video titling and video retrieval in the field of Chinese short
videos.
- Abstract(参考訳): 従来のビデオキャプションは、主観的で魅力的な表現を欠いたビデオの実際のコンテンツを客観的に記述することを目的としており、実用シナリオを制限している。
ビデオタイトリングはこの目標を達成するためのものだが、適切なベンチマークがない。
本稿では,中国初の大規模ショートビデオ検索およびタイトル生成ベンチマークを作成し,中国におけるビデオ検索と動画検索における研究と応用を容易にすることを提案する。
CREATEは、高品質なラベル付き210Kデータセットと、2つの大規模3M/10M事前トレーニングデータセットで構成されており、51のカテゴリ、50K以上のタグ、537Kマニュアルの注釈付きタイトルとキャプション、10M以上のショートビデオを含んでいる。
本研究では,ビデオタグとgpt事前学習モデルを用いて,マルチモーダルアライメントと生成の目的を達成するために,ビデオ検索とビデオタイルタスクを組み合わせた新しいモデルalwigを提案する。
CREATEは、中国のショートビデオ分野におけるビデオタイトリングとビデオ検索の今後の研究と応用を促進するための新しい方向を開く。
関連論文リスト
- AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文 参考訳(メタデータ) (2023-08-22T17:53:55Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for
Pre-training and Benchmarks [63.09588102724274]
中国最大の高品質ビデオ言語データセットであるYouku-mPLUGをリリースする。
Youku-mPLUGには、大規模な事前トレーニングのための45のさまざまなカテゴリにわたる4億の生のビデオからフィルタリングされた1000万の中国製ビデオテキストペアが含まれている。
我々は、クロスモーダル検索、ビデオキャプション、ビデオカテゴリ分類の3つの一般的なビデオ言語タスクをカバーする、人手による最大のベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-07T11:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。