論文の概要: Align and Attend: Multimodal Summarization with Dual Contrastive Losses
- arxiv url: http://arxiv.org/abs/2303.07284v1
- Date: Mon, 13 Mar 2023 17:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 13:46:07.002461
- Title: Align and Attend: Multimodal Summarization with Dual Contrastive Losses
- Title(参考訳): Align and Attend: Dual Contrastive Lossesを用いたマルチモーダル要約
- Authors: Bo He, Jun Wang, Jielin Qiu, Trung Bui, Abhinav Shrivastava, Zhaowen
Wang
- Abstract要約: マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出して要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
- 参考スコア(独自算出の注目度): 57.83012574678091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of multimodal summarization is to extract the most important
information from different modalities to form summaries. Unlike unimodal
summarization, the multimodal summarization task explicitly leverages
cross-modal information to help generate more reliable and high-quality
summaries. However, existing methods fail to leverage the temporal
correspondence between different modalities and ignore the intrinsic
correlation between different samples. To address this issue, we introduce
Align and Attend Multimodal Summarization (A2Summ), a unified multimodal
transformer-based model which can effectively align and attend the multimodal
input. In addition, we propose two novel contrastive losses to model both
inter-sample and intra-sample correlations. Extensive experiments on two
standard video summarization datasets (TVSum and SumMe) and two multimodal
summarization datasets (Daily Mail and CNN) demonstrate the superiority of
A2Summ, achieving state-of-the-art performances on all datasets. Moreover, we
collected a large-scale multimodal summarization dataset BLiSS, which contains
livestream videos and transcribed texts with annotated summaries. Our code and
dataset are publicly available at ~\url{https://boheumd.github.io/A2Summ/}.
- Abstract(参考訳): マルチモーダル要約の目標は、異なるモダリティから最も重要な情報を抽出して要約を形成することである。
単項要約とは異なり、マルチモーダル要約タスクはクロスモーダル情報を明示的に活用し、より信頼性が高く高品質な要約を生成する。
しかし、既存の手法では、異なるモダリティ間の時間的対応を活用できず、異なるサンプル間の固有の相関を無視する。
そこで本研究では,マルチモーダル入力を効果的に調整し,対応できる統一マルチモーダルトランスフォーマーモデルであるa2summ(aldin and attend multimodal summarization)を提案する。
さらに,試料間相関と試料内相関の両方をモデル化する2つの新しいコントラスト損失を提案する。
2つの標準ビデオ要約データセット(TVSumとSumMe)と2つのマルチモーダル要約データセット(Daily MailとCNN)に対する大規模な実験は、A2Summの優位性を示し、すべてのデータセットで最先端のパフォーマンスを達成する。
さらに,ライブストリームビデオと注釈付き要約文を含む大規模マルチモーダル要約データセットBLiSSを収集した。
私たちのコードとデータセットは、~\url{https://boheumd.github.io/A2Summ/}で公開されています。
関連論文リスト
- SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization [19.190627262112486]
XMSMO (Extreme Multimodal Summarization with Multimodal Output) は魅力的な要約手法である。
既存のメソッドは、マルチモーダルデータが関連のない情報を含むことが多い問題を見落としている。
極多モード要約のための共有情報誘導変換器SITransformerを提案する。
論文 参考訳(メタデータ) (2024-08-28T14:44:42Z) - I2SRM: Intra- and Inter-Sample Relationship Modeling for Multimodal
Information Extraction [10.684005956288347]
本稿では,本課題に対するサンプル内およびサンプル間関係モデリング(I2SRM)手法を提案する。
提案手法は,Twitter-2015で77.12%のF1スコア,Twitter-2017で88.40%のF1スコア,MNREで84.12%のF1スコアと競合する結果を得た。
論文 参考訳(メタデータ) (2023-10-10T05:50:25Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。