論文の概要: See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization
- arxiv url: http://arxiv.org/abs/2105.09601v1
- Date: Thu, 20 May 2021 08:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 18:49:49.516348
- Title: See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization
- Title(参考訳): See, Hear, Read: Leveraging Multimodality with Guided Attention for Abstractive Text Summarization (英語)
- Authors: Yash Kumar Atri, Shraman Pramanick, Vikram Goyal, Tanmoy Chakraborty
- Abstract要約: 我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
- 参考スコア(独自算出の注目度): 14.881597737762316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, abstractive text summarization with multimodal inputs has
started drawing attention due to its ability to accumulate information from
different source modalities and generate a fluent textual summary. However,
existing methods use short videos as the visual modality and short summary as
the ground-truth, therefore, perform poorly on lengthy videos and long
ground-truth summary. Additionally, there exists no benchmark dataset to
generalize this task on videos of varying lengths. In this paper, we introduce
AVIATE, the first large-scale dataset for abstractive text summarization with
videos of diverse duration, compiled from presentations in well-known academic
conferences like NDSS, ICML, NeurIPS, etc. We use the abstract of corresponding
research papers as the reference summaries, which ensure adequate quality and
uniformity of the ground-truth. We then propose {\name}, a factorized
multi-modal Transformer based decoder-only language model, which inherently
captures the intra-modal and inter-modal dynamics within various input
modalities for the text summarization task. {\name} utilizes an increasing
number of self-attentions to capture multimodality and performs significantly
better than traditional encoder-decoder based networks. Extensive experiments
illustrate that {\name} achieves significant improvement over the baselines in
both qualitative and quantitative evaluations on the existing How2 dataset for
short videos and newly introduced AVIATE dataset for videos with diverse
duration, beating the best baseline on the two datasets by $1.39$ and $2.74$
ROUGE-L points respectively.
- Abstract(参考訳): 近年,複数モーダル入力による抽象的なテキスト要約が注目されている。
しかし、既存の手法では、短い映像を視覚モダリティとして、短い要約を地対面として使用するため、長いビデオや長い地対面要約では性能が劣る。
さらに、このタスクを様々な長さのビデオで一般化するベンチマークデータセットは存在しない。
本稿では,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間の動画による抽象テキスト要約のための最初の大規模データセットであるAVIATEを紹介する。
我々は,対応する研究論文の要約を参照要約として使用し,基盤の質と均一性を確保する。
そこで本論文では,マルチモーダルトランスフォーマーをベースとしたデコーダのみの言語モデルである {\name}を提案する。
{\name} はマルチモーダリティをキャプチャする自己アテンションの増加を利用しており、従来のエンコーダ-デコーダベースネットワークよりも大幅にパフォーマンスが向上している。
大規模な実験では、既存のショートビデオのハウ2データセットと新しく導入されたビデオのAVIATEデータセットの質的および定量的評価において、ベースラインを大幅に改善し、それぞれ1.39$と2.74$のROUGE-Lポイントの2つのデータセットのベースラインを上回った。
関連論文リスト
- VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Learning Summary-Worthy Visual Representation for Abstractive
Summarization in Video [34.202514532882]
本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。
本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
論文 参考訳(メタデータ) (2023-05-08T16:24:46Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - MAST: Multimodal Abstractive Summarization with Trimodal Hierarchical
Attention [5.584060970507506]
本稿では,マルチモーダル抽象テキスト要約の新しいモデルであるMASTを提案する。
本稿では,音声モダリティから情報を引き出すことの有用性と課題について検討する。
本稿では,これらの課題を克服する,時系列から連続までの3次階層的注意に基づくモデルを提案する。
論文 参考訳(メタデータ) (2020-10-15T21:08:20Z) - Multi-modal Summarization for Video-containing Documents [23.750585762568665]
本稿では,文書とその関連ビデオから要約する,新しいマルチモーダル要約タスクを提案する。
総合的な実験により,提案手法は複数モーダル要約に有用であり,既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-17T02:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。