論文の概要: PTVD: A Large-Scale Plot-Oriented Multimodal Dataset Based on Television
Dramas
- arxiv url: http://arxiv.org/abs/2306.14644v1
- Date: Mon, 26 Jun 2023 12:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 13:35:13.844563
- Title: PTVD: A Large-Scale Plot-Oriented Multimodal Dataset Based on Television
Dramas
- Title(参考訳): PTVD:テレビドラマに基づく大規模Plot-Oriented Multimodal Dataset
- Authors: Chen Li, Xutan Peng, Teng Wang, Yixiao Ge, Mengyang Liu, Xuyuan Xu,
Yexin Wang, Ying Shan
- Abstract要約: PTVDは、テレビドメインにおけるプロット指向のマルチモーダルデータセットである。
テレビドラマ1,106話、プロが書いたプロット中心の24,875話が収録されている。
また、この種の非英語のデータセットとしては初めてのものである。
- 参考スコア(独自算出の注目度): 25.406274684899405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Art forms such as movies and television (TV) dramas are reflections of the
real world, which have attracted much attention from the multimodal learning
community recently. However, existing corpora in this domain share three
limitations: (1) annotated in a scene-oriented fashion, they ignore the
coherence within plots; (2) their text lacks empathy and seldom mentions
situational context; (3) their video clips fail to cover long-form relationship
due to short duration. To address these fundamental issues, using 1,106 TV
drama episodes and 24,875 informative plot-focused sentences written by
professionals, with the help of 449 human annotators, we constructed PTVD, the
first plot-oriented multimodal dataset in the TV domain. It is also the first
non-English dataset of its kind. Additionally, PTVD contains more than 26
million bullet screen comments (BSCs), powering large-scale pre-training. Next,
aiming to open-source a strong baseline for follow-up works, we developed the
multimodal algorithm that attacks different cinema/TV modelling problems with a
unified architecture. Extensive experiments on three cognitive-inspired tasks
yielded a number of novel observations (some of them being quite
counter-intuition), further validating the value of PTVD in promoting
multimodal research. The dataset and codes are released at
\url{https://ptvd.github.io/}.
- Abstract(参考訳): 映画やテレビ(テレビ)ドラマなどの芸術形式は現実世界を反映したもので、近年はマルチモーダル・ラーニング・コミュニティから注目を集めている。
しかし、このドメインの既存のコーパスには、3つの制限がある:(1)シーン指向の方法で注釈を付け、プロット内の一貫性を無視する、(2)テキストは共感を欠く、状況的文脈をほとんど言及しない、(3)ビデオクリップは短い期間のために長い形態の関係をカバーできない、の3つがある。
テレビドラマ1,106話とプロが書いた24,875文を用いて449人のアノテータの助けを借りて,テレビ領域におけるプロット指向のマルチモーダルデータセットであるPTVDを構築した。
また、この種の非英語データセットとしては初めてである。
さらに、PTVDには2600万以上の弾頭画面コメント(BSC)が含まれており、大規模な事前トレーニングの電源となっている。
次に, 追従作業のための強固なベースラインをオープンソースとして公開することを目指して, 異なるシネマ/テレビモデリング問題を統一アーキテクチャで攻撃するマルチモーダルアルゴリズムを開発した。
認知に触発された3つのタスクに関する大規模な実験は、多くの新しい観察をもたらし(そのうちのいくつかは全く逆の直感である)、マルチモーダル研究を促進する上でのPTVDの価値をさらに検証した。
データセットとコードは \url{https://ptvd.github.io/} でリリースされる。
関連論文リスト
- SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses [58.488812405557]
ビデオグラウンディングは、特定の自然言語クエリを、トリミングされていないビデオにローカライズすることを目的としている。
本稿では,SynopGroundという大規模ビデオグラウンドデータセットを提案する。
我々はMPVG(Multi-Paragraph Video Grounding)と呼ばれるより複雑なビデオグラウンドについて紹介する。
論文 参考訳(メタデータ) (2024-08-03T05:35:13Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。