論文の概要: CREATE: A Benchmark for Chinese Short Video Retrieval and Title
Generation
- arxiv url: http://arxiv.org/abs/2203.16763v1
- Date: Thu, 31 Mar 2022 02:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 07:08:36.384207
- Title: CREATE: A Benchmark for Chinese Short Video Retrieval and Title
Generation
- Title(参考訳): CREATE:中国のショートビデオ検索とタイトル生成のためのベンチマーク
- Authors: Ziqi Zhang, Yuxin Chen, Zongyang Ma, Zhongang Qi, Chunfeng Yuan, Bing
Li, Ying Shan, Weiming Hu
- Abstract要約: そこで本研究では,中国初の大規模ShoRt vidEo retrievAlおよびTitle gEnベンチマークであるCREATEを提案する。
CREATEは、高品質なラベル付き210Kデータセットと、2つの大規模3M/10M事前トレーニングデータセットで構成されており、51のカテゴリ、50K以上のタグ、537Kマニュアルの注釈付きタイトルとキャプション、10M以上のショートビデオを含んでいる。
CREATEに基づいて、マルチモーダルアライメントWIの目的を達成するために、ビデオ検索とビデオタイトリングタスクを組み合わせた新しいモデルALWIGを提案する。
- 参考スコア(独自算出の注目度): 54.7561946475866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous works of video captioning aim to objectively describe the video's
actual content, which lacks subjective and attractive expression, limiting its
practical application scenarios. Video titling is intended to achieve this
goal, but there is a lack of a proper benchmark. In this paper, we propose to
CREATE, the first large-scale Chinese shoRt vidEo retrievAl and Title
gEneration benchmark, to facilitate research and application in video titling
and video retrieval in Chinese. CREATE consists of a high-quality labeled 210K
dataset and two large-scale 3M/10M pre-training datasets, covering 51
categories, 50K+ tags, 537K manually annotated titles and captions, and 10M+
short videos. Based on CREATE, we propose a novel model ALWIG which combines
video retrieval and video titling tasks to achieve the purpose of multi-modal
ALignment WIth Generation with the help of video tags and a GPT pre-trained
model. CREATE opens new directions for facilitating future research and
applications on video titling and video retrieval in the field of Chinese short
videos.
- Abstract(参考訳): 従来のビデオキャプションは、主観的で魅力的な表現を欠いたビデオの実際のコンテンツを客観的に記述することを目的としており、実用シナリオを制限している。
ビデオタイトリングはこの目標を達成するためのものだが、適切なベンチマークがない。
本稿では,中国初の大規模ショートビデオ検索およびタイトル生成ベンチマークを作成し,中国におけるビデオ検索と動画検索における研究と応用を容易にすることを提案する。
CREATEは、高品質なラベル付き210Kデータセットと、2つの大規模3M/10M事前トレーニングデータセットで構成されており、51のカテゴリ、50K以上のタグ、537Kマニュアルの注釈付きタイトルとキャプション、10M以上のショートビデオを含んでいる。
本研究では,ビデオタグとgpt事前学習モデルを用いて,マルチモーダルアライメントと生成の目的を達成するために,ビデオ検索とビデオタイルタスクを組み合わせた新しいモデルalwigを提案する。
CREATEは、中国のショートビデオ分野におけるビデオタイトリングとビデオ検索の今後の研究と応用を促進するための新しい方向を開く。
関連論文リスト
- SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。
$textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。
結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文 参考訳(メタデータ) (2024-12-23T15:13:56Z) - Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark [5.76230561819199]
1万本以上のビデオと12万本以上の注釈付きクリップからなる広範囲なデータセットであるRepurpose-10Kを提案する。
実世界のユーザ生成コンテンツからアノテーションを得るための2段階のソリューションを提案する。
この課題に対処するためのベースラインモデルとして,音声,視覚,キャプションの各側面を統合する。
論文 参考訳(メタデータ) (2024-12-12T02:27:46Z) - AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.73538448786405]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for
Pre-training and Benchmarks [63.09588102724274]
中国最大の高品質ビデオ言語データセットであるYouku-mPLUGをリリースする。
Youku-mPLUGには、大規模な事前トレーニングのための45のさまざまなカテゴリにわたる4億の生のビデオからフィルタリングされた1000万の中国製ビデオテキストペアが含まれている。
我々は、クロスモーダル検索、ビデオキャプション、ビデオカテゴリ分類の3つの一般的なビデオ言語タスクをカバーする、人手による最大のベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-07T11:52:36Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。