Fugu-MT 論文翻訳(概要): CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation

論文の概要: CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation

arxiv url: http://arxiv.org/abs/2203.16763v1
Date: Thu, 31 Mar 2022 02:39:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-02 07:08:36.384207
Title: CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation
Title（参考訳）: CREATE:中国のショートビデオ検索とタイトル生成のためのベンチマーク
Authors: Ziqi Zhang, Yuxin Chen, Zongyang Ma, Zhongang Qi, Chunfeng Yuan, Bing Li, Ying Shan, Weiming Hu
Abstract要約: そこで本研究では,中国初の大規模ShoRt vidEo retrievAlおよびTitle gEnベンチマークであるCREATEを提案する。 CREATEは、高品質なラベル付き210Kデータセットと、2つの大規模3M/10M事前トレーニングデータセットで構成されており、51のカテゴリ、50K以上のタグ、537Kマニュアルの注釈付きタイトルとキャプション、10M以上のショートビデオを含んでいる。 CREATEに基づいて、マルチモーダルアライメントWIの目的を達成するために、ビデオ検索とビデオタイトリングタスクを組み合わせた新しいモデルALWIGを提案する。
参考スコア（独自算出の注目度）: 54.7561946475866
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Previous works of video captioning aim to objectively describe the video's actual content, which lacks subjective and attractive expression, limiting its practical application scenarios. Video titling is intended to achieve this goal, but there is a lack of a proper benchmark. In this paper, we propose to CREATE, the first large-scale Chinese shoRt vidEo retrievAl and Title gEneration benchmark, to facilitate research and application in video titling and video retrieval in Chinese. CREATE consists of a high-quality labeled 210K dataset and two large-scale 3M/10M pre-training datasets, covering 51 categories, 50K+ tags, 537K manually annotated titles and captions, and 10M+ short videos. Based on CREATE, we propose a novel model ALWIG which combines video retrieval and video titling tasks to achieve the purpose of multi-modal ALignment WIth Generation with the help of video tags and a GPT pre-trained model. CREATE opens new directions for facilitating future research and applications on video titling and video retrieval in the field of Chinese short videos.
Abstract（参考訳）: 従来のビデオキャプションは、主観的で魅力的な表現を欠いたビデオの実際のコンテンツを客観的に記述することを目的としており、実用シナリオを制限している。ビデオタイトリングはこの目標を達成するためのものだが、適切なベンチマークがない。本稿では,中国初の大規模ショートビデオ検索およびタイトル生成ベンチマークを作成し,中国におけるビデオ検索と動画検索における研究と応用を容易にすることを提案する。 CREATEは、高品質なラベル付き210Kデータセットと、2つの大規模3M/10M事前トレーニングデータセットで構成されており、51のカテゴリ、50K以上のタグ、537Kマニュアルの注釈付きタイトルとキャプション、10M以上のショートビデオを含んでいる。本研究では,ビデオタグとgpt事前学習モデルを用いて,マルチモーダルアライメントと生成の目的を達成するために,ビデオ検索とビデオタイルタスクを組み合わせた新しいモデルalwigを提案する。 CREATEは、中国のショートビデオ分野におけるビデオタイトリングとビデオ検索の今後の研究と応用を促進するための新しい方向を開く。

関連論文リスト

CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文参考訳（メタデータ） (2024-12-31T15:53:50Z)
SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。 $textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文参考訳（メタデータ） (2024-12-23T15:13:56Z)
Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark [5.76230561819199]
1万本以上のビデオと12万本以上の注釈付きクリップからなる広範囲なデータセットであるRepurpose-10Kを提案する。実世界のユーザ生成コンテンツからアノテーションを得るための2段階のソリューションを提案する。この課題に対処するためのベースラインモデルとして,音声,視覚,キャプションの各側面を統合する。
論文参考訳（メタデータ） (2024-12-12T02:27:46Z)
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。 AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-04T00:13:54Z)
Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文参考訳（メタデータ） (2024-06-10T06:17:55Z)
Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文参考訳（メタデータ） (2023-12-16T03:17:30Z)
StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文参考訳（メタデータ） (2023-08-22T17:53:55Z)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (2023-07-13T17:58:32Z)
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks [63.09588102724274]
中国最大の高品質ビデオ言語データセットであるYouku-mPLUGをリリースする。 Youku-mPLUGには、大規模な事前トレーニングのための45のさまざまなカテゴリにわたる4億の生のビデオからフィルタリングされた1000万の中国製ビデオテキストペアが含まれている。我々は、クロスモーダル検索、ビデオキャプション、ビデオカテゴリ分類の3つの一般的なビデオ言語タスクをカバーする、人手による最大のベンチマークを構築した。
論文参考訳（メタデータ） (2023-06-07T11:52:36Z)
VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文参考訳（メタデータ） (2020-03-25T20:39:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。