Fugu-MT 論文翻訳(概要): MultiSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

論文の概要: MultiSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos

arxiv url: http://arxiv.org/abs/2306.04216v1
Date: Wed, 7 Jun 2023 07:43:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-08 15:50:08.091333
Title: MultiSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos
Title（参考訳）: MultiSum:ビデオのマルチモーダル要約とサムネイル生成のためのデータセット
Authors: Jielin Qiu, Jiacheng Zhu, William Han, Aditesh Kumar, Karthik Mittal, Claire Jin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Bo Li, Ding Zhao, Lijuan Wang
Abstract要約: マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。我々は、MultiSumデータセットとデータ収集ツールを完全なオープンソースリソースとしてリリースします。
参考スコア（独自算出の注目度）: 69.96301184138514
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal summarization with multimodal output (MSMO) has emerged as a promising research direction. Nonetheless, numerous limitations exist within existing public MSMO datasets, including insufficient upkeep, data inaccessibility, limited size, and the absence of proper categorization, which pose significant challenges to effective research. To address these challenges and provide a comprehensive dataset for this new direction, we have meticulously curated the MultiSum dataset. Our new dataset features (1) Human-validated summaries for both video and textual content, providing superior human instruction and labels for multimodal learning. (2) Comprehensively and meticulously arranged categorization, spanning 17 principal categories and 170 subcategories to encapsulate a diverse array of real-world scenarios. (3) Benchmark tests performed on the proposed dataset to assess varied tasks and methods, including video temporal segmentation, video summarization, text summarization, and multimodal summarization. To champion accessibility and collaboration, we release the MultiSum dataset and the data collection tool as fully open-source resources, fostering transparency and accelerating future developments. Our project website can be found at https://multisum-dataset.github.io/.
Abstract（参考訳）: マルチモーダル出力(MSMO)を用いたマルチモーダル要約が,有望な研究方向として浮上している。それにもかかわらず、既存のMSMOデータセットには、アップキープの不十分、データアクセシビリティの欠如、サイズ制限、適切な分類の欠如など、多くの制限がある。これらの課題に対処し、この新しい方向性のための包括的なデータセットを提供するため、MultiSumデータセットを慎重にキュレートしました。新しいデータセットは,(1)ビデオコンテンツとテキストコンテンツの両方に有能な要約を提供し,マルチモーダル学習に優れた指導とラベルを提供する。 2) 包括的かつ丁寧に分類し, 多様な実世界のシナリオを包括する17のカテゴリと170のサブカテゴリにまたがる。 3)ビデオ時間分割,ビデオ要約,テキスト要約,マルチモーダル要約など,さまざまなタスクや手法を評価するために,提案データセット上で実施したベンチマークテスト。アクセシビリティとコラボレーションを推進すべく、MultiSumデータセットとデータ収集ツールを完全なオープンソースリソースとしてリリースし、透明性を高め、今後の発展を加速します。プロジェクトのWebサイトはhttps://multisum-dataset.github.io/にある。

関連論文リスト

BrokenBind: Universal Modality Exploration beyond Dataset Boundaries [112.81381711545043]
我々はBrokenBindを紹介した。BrokenBindは、異なるデータセットから提示されるバインディングのモダリティに焦点を当てている。私たちのフレームワークでは、データセットの制限なしに、任意の2つのモダリティを結び付けることができます。
論文参考訳（メタデータ） (2026-02-06T07:26:49Z)
Omni Survey for Multimodality Analysis in Visual Object Tracking [34.25429207685124]
本稿では,Multi-Modal Visual Object Tracking (MMVOT) の最も重要な課題について検討する。 MMVOTは、データ収集、モダリティアライメントとアノテーション、モデル設計、評価の4つの重要な側面において、シングルモーダルトラッキングとは異なる。
論文参考訳（メタデータ） (2025-08-18T15:18:59Z)
UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。 BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文参考訳（メタデータ） (2024-06-24T03:55:25Z)
3AM: An Ambiguity-Aware Multi-Modal Machine Translation Dataset [90.95948101052073]
英語と中国語で26,000のパラレル文対からなる曖昧性を考慮したMMTデータセットである3AMを導入する。我々のデータセットは、他のMTデータセットよりもあいまいで、キャプションと画像の両方が多種多様であるように設計されています。実験の結果,我々のデータセットでトレーニングしたMTモデルは,他のMTデータセットでトレーニングしたMTモデルよりも視覚情報を活用する能力が高いことがわかった。
論文参考訳（メタデータ） (2024-04-29T04:01:30Z)
MultiZoo & MultiBench: A Standardized Toolkit for Multimodal Deep Learning [110.54752872873472]
MultiZooは、20コアのマルチモーダルアルゴリズムの標準化実装からなる公開ツールキットである。 MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがるベンチマークである。
論文参考訳（メタデータ） (2023-06-28T17:59:10Z)
Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文参考訳（メタデータ） (2023-06-08T15:17:04Z)
Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。 A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文参考訳（メタデータ） (2023-03-13T17:01:42Z)
LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文参考訳（メタデータ） (2023-01-26T18:50:54Z)
MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with Multimodal Fine-grained Aligned Annotations [31.972103262426877]
我々は,21K以上のテキストイメージペアを含む新しいデータセットであるMultimodal Aspect-Category Sentiment Analysis (MACSA)を提案する。本稿では, マルチモーダルACSAタスクと多モーダルグラフベースアライメントモデル (MGAM) を提案する。
論文参考訳（メタデータ） (2022-06-28T12:49:16Z)
See, Hear, Read: Leveraging Multimodality with Guided Attention for Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文参考訳（メタデータ） (2021-05-20T08:56:33Z)
The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset: Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文参考訳（メタデータ） (2021-01-15T10:40:37Z)
SupMMD: A Sentence Importance Model for Extractive Summarization using Maximum Mean Discrepancy [92.5683788430012]
SupMMDは、カーネルの2サンプルテストと最大の相違点に基づく、ジェネリックおよび更新の要約のための新しいテクニックである。 DUC-2004 および TAC-2009 データセット上での現在の技術状況を満たしたり超えたりすることで,SupMMD の総合的および更新的要約タスクにおける有効性を示す。
論文参考訳（メタデータ） (2020-10-06T09:26:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。