論文の概要: Fusing Multimodal Signals on Hyper-complex Space for Extreme Abstractive
Text Summarization (TL;DR) of Scientific Contents
- arxiv url: http://arxiv.org/abs/2306.13968v1
- Date: Sat, 24 Jun 2023 13:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:50:03.532402
- Title: Fusing Multimodal Signals on Hyper-complex Space for Extreme Abstractive
Text Summarization (TL;DR) of Scientific Contents
- Title(参考訳): 科学内容の極端抽象テキスト要約(tl;dr)のための超複素空間上のマルチモーダル信号の利用
- Authors: Yash Kumar Atri, Vikram Goyal, Tanmoy Chakraborty
- Abstract要約: 我々は,複数の入力モダリティを活用することで,超抽象的テキスト要約(TL;DR生成)の新たな課題に対処する。
mTLDRデータセットには、さまざまな学術会議の手続きから収集された合計4,182のインスタンスが含まれている。
本稿では, デュアルフューズハイパーコンプレックストランスを用いたエンコーダデコーダモデルであるmTLDRgenを提案する。
- 参考スコア(独自算出の注目度): 26.32569293387399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The realm of scientific text summarization has experienced remarkable
progress due to the availability of annotated brief summaries and ample data.
However, the utilization of multiple input modalities, such as videos and
audio, has yet to be thoroughly explored. At present, scientific
multimodal-input-based text summarization systems tend to employ longer target
summaries like abstracts, leading to an underwhelming performance in the task
of text summarization.
In this paper, we deal with a novel task of extreme abstractive text
summarization (aka TL;DR generation) by leveraging multiple input modalities.
To this end, we introduce mTLDR, a first-of-its-kind dataset for the
aforementioned task, comprising videos, audio, and text, along with both
author-composed summaries and expert-annotated summaries. The mTLDR dataset
accompanies a total of 4,182 instances collected from various academic
conference proceedings, such as ICLR, ACL, and CVPR. Subsequently, we present
mTLDRgen, an encoder-decoder-based model that employs a novel dual-fused
hyper-complex Transformer combined with a Wasserstein Riemannian Encoder
Transformer, to dexterously capture the intricacies between different
modalities in a hyper-complex latent geometric space. The hyper-complex
Transformer captures the intrinsic properties between the modalities, while the
Wasserstein Riemannian Encoder Transformer captures the latent structure of the
modalities in the latent space geometry, thereby enabling the model to produce
diverse sentences. mTLDRgen outperforms 20 baselines on mTLDR as well as
another non-scientific dataset (How2) across three Rouge-based evaluation
measures. Furthermore, based on the qualitative metrics, BERTScore and FEQA,
and human evaluations, we demonstrate that the summaries generated by mTLDRgen
are fluent and congruent to the original source material.
- Abstract(参考訳): 科学的なテキスト要約の領域は、注釈付きブリーフサマリーと豊富なデータによって著しく進歩した。
しかし、ビデオやオーディオといった複数の入力モードの利用については、まだ十分に検討されていない。
現在、科学的なマルチモーダルインプットベースのテキスト要約システムでは、抽象文のようなより長い対象の要約を用いる傾向にあり、テキスト要約のタスクにおいて、過度なパフォーマンスをもたらす。
本稿では,複数の入力モダリティを活用することで,超抽象的テキスト要約(TL;DR生成)の新たな課題を扱う。
そこで,本稿では,ビデオ,音声,テキスト,著者による要約,専門家による注釈付き要約などを含む,上記のタスクの第一種データセットであるmTLDRを紹介する。
mTLDRデータセットには、ICLR、ACL、CVPRなど、さまざまな学術会議の手順から収集された合計4,182のインスタンスが含まれている。
次に,新しい2重融合超複素変換器とWasserstein Riemannian Encoder Transformerを併用したエンコーダデコーダモデルであるmTLDRgenを提案する。
超複素変換器はモダリティ間の内在的性質を捉える一方、ワッサーシュタインリーマンエンコーダ変換器はラテント空間幾何学におけるモダリティの潜在構造を捉え、モデルが多様な文を生成できるようにする。
mTLDRgenは、mTLDRで20のベースラインを上回り、3つのルージュベースの評価尺度で別の非科学的データセット(How2)を上回ります。
さらに,定性的指標であるBERTScoreとFEQAと人的評価に基づいて,mTLDRgenが生成した要約が原資料と一致することを示す。
関連論文リスト
- SKT5SciSumm -- Revisiting Extractive-Generative Approach for Multi-Document Scientific Summarization [24.051692189473723]
マルチドキュメント科学要約(MDSS)のためのハイブリッドフレームワークSKT5SciSummを提案する。
我々は,Citation-Informed Transformer (SPECTER) を用いたScientific Paper Embeddingsの文変換バージョンを活用し,文のエンコードと表現を行う。
我々は、抽出文を用いて抽象要約を生成するために、T5モデルのファミリを用いる。
論文 参考訳(メタデータ) (2024-02-27T08:33:31Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Enriching Transformers with Structured Tensor-Product Representations
for Abstractive Summarization [131.23966358405767]
抽象的な要約のタスクに対して,明示的に構成された製品表現(TPR)をTP-TRANSFORMERに適用する。
モデルの主な特徴は、トークンごとに2つの別々の表現を符号化することで導入する構造バイアスである。
本稿では,TP-TRANSFORMER が Transformer と TP-TRANSFORMER より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-02T17:32:33Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。