論文の概要: Self-Supervised Multimodal Opinion Summarization
- arxiv url: http://arxiv.org/abs/2105.13135v1
- Date: Thu, 27 May 2021 13:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:44:16.948044
- Title: Self-Supervised Multimodal Opinion Summarization
- Title(参考訳): 自己監督型マルチモーダルオピニオン要約
- Authors: Jinbae Im, Moonki Kim, Hoyeop Lee, Hyunsouk Cho, Sehee Chung
- Abstract要約: 我々はマルチモーダルサムと呼ばれる自己教師型マルチモーダル意見要約フレームワークを提案する。
本フレームワークは,各モダリティに対して別個のエンコーダを用いて各モダリティの表現を取得し,テキストデコーダは要約を生成する。
YelpとAmazonのデータセットで実験を行うことで、MultimodalSumの優位性を実証する。
- 参考スコア(独自算出の注目度): 5.531545156837085
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, opinion summarization, which is the generation of a summary from
multiple reviews, has been conducted in a self-supervised manner by considering
a sampled review as a pseudo summary. However, non-text data such as image and
metadata related to reviews have been considered less often. To use the
abundant information contained in non-text data, we propose a self-supervised
multimodal opinion summarization framework called MultimodalSum. Our framework
obtains a representation of each modality using a separate encoder for each
modality, and the text decoder generates a summary. To resolve the inherent
heterogeneity of multimodal data, we propose a multimodal training pipeline. We
first pretrain the text encoder--decoder based solely on text modality data.
Subsequently, we pretrain the non-text modality encoders by considering the
pretrained text decoder as a pivot for the homogeneous representation of
multimodal data. Finally, to fuse multimodal representations, we train the
entire framework in an end-to-end manner. We demonstrate the superiority of
MultimodalSum by conducting experiments on Yelp and Amazon datasets.
- Abstract(参考訳): 近年,複数のレビューから要約を生成する意見要約は,サンプルレビューを擬似要約として考慮して自己指導的に行われている。
しかし、レビューに関連する画像やメタデータなどの非テキストデータはあまり考えられていない。
非テキストデータに含まれる豊富な情報を利用するために,MultimodalSumと呼ばれる自己教師型マルチモーダル意見要約フレームワークを提案する。
本フレームワークは,各モダリティに対する個別エンコーダを用いて各モダリティの表現を取得し,テキストデコーダは要約を生成する。
マルチモーダルデータの固有不均一性を解決するために,マルチモーダルトレーニングパイプラインを提案する。
まず,テキストのモダリティデータのみに基づいて,テキストエンコーダ-デコーダをプリトレーニングする。
その後、事前訓練されたテキストデコーダをマルチモーダルデータの同次表現のピボットとして考慮し、非テキストモダリティエンコーダを事前訓練する。
最後に、マルチモーダル表現を融合するために、フレームワーク全体をエンドツーエンドでトレーニングします。
YelpとAmazonのデータセットで実験を行うことで、MultimodalSumの優位性を実証する。
関連論文リスト
- Sequential Compositional Generalization in Multimodal Models [23.52949473093583]
我々は,複数の一様モデルと多様モデルの総合的な評価を行う。
以上の結果から,バイモーダルモデルとトリモーダルモデルでは,テキストのみに比較して明確なエッジがみられた。
論文 参考訳(メタデータ) (2024-04-18T09:04:15Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z) - An Enhanced MeanSum Method For Generating Hotel Multi-Review
Summarizations [0.06091702876917279]
マルチアスペクトマーカ(MAM)をコンテンツセレクタとして使用し、マルチアスペクトでこの問題に対処する。
また,生成した要約の長さを制御する正規化器を提案する。
改良されたモデルでは,元のMeansum法よりも高いROUGE,知覚精度が得られる。
論文 参考訳(メタデータ) (2020-12-07T13:16:01Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。