論文の概要: SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization
- arxiv url: http://arxiv.org/abs/2408.15829v1
- Date: Wed, 28 Aug 2024 14:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:40:56.155548
- Title: SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization
- Title(参考訳): SI変換器:極多モード要約のための共有情報誘導変換器
- Authors: Sicheng Liu, Lintao Wang, Xiaogan Zhu, Xuequan Lu, Zhiyong Wang, Kun Hu,
- Abstract要約: XMSMO (Extreme Multimodal Summarization with Multimodal Output) は魅力的な要約手法である。
既存のメソッドは、マルチモーダルデータが関連のない情報を含むことが多い問題を見落としている。
極端なマルチモーダル要約のためのtextbfShared textbfIn-guided textbfTransformer である SITransformer を提案する。
- 参考スコア(独自算出の注目度): 19.190627262112486
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Extreme Multimodal Summarization with Multimodal Output (XMSMO) becomes an attractive summarization approach by integrating various types of information to create extremely concise yet informative summaries for individual modalities. Existing methods overlook the issue that multimodal data often contains more topic irrelevant information, which can mislead the model into producing inaccurate summaries especially for extremely short ones. In this paper, we propose SITransformer, a \textbf{S}hared \textbf{I}nformation-guided \textbf{T}ransformer for extreme multimodal summarization. It has a shared information guided pipeline which involves a cross-modal shared information extractor and a cross-modal interaction module. The extractor formulates semantically shared salient information from different modalities by devising a novel filtering process consisting of a differentiable top-k selector and a shared-information guided gating unit. As a result, the common, salient, and relevant contents across modalities are identified. Next, a transformer with cross-modal attentions is developed for intra- and inter-modality learning with the shared information guidance to produce the extreme summary. Comprehensive experiments demonstrate that SITransformer significantly enhances the summarization quality for both video and text summaries for XMSMO. Our code will be publicly available at https://github.com/SichengLeoLiu/MMAsia24-XMSMO.
- Abstract(参考訳): XMSMO(Extreme Multimodal Summarization with Multimodal Output)は、様々な種類の情報を統合して、非常に簡潔で情報的な要約を生成することで、魅力的な要約手法となる。
既存の手法では、マルチモーダルデータには関連性のない情報が多く含まれており、特に非常に短いデータに対して、モデルが不正確な要約を生成することを誤解させる可能性がある。
本稿では,超多モード要約のためのSITransformer, a \textbf{S}hared \textbf{I}nformation-guided \textbf{T}ransformerを提案する。
クロスモーダル共有情報抽出器とクロスモーダルインタラクションモジュールを含む共有情報ガイドパイプラインを備える。
抽出器は、識別可能なトップkセレクタと共有情報案内ゲーティングユニットからなる新規なフィルタリングプロセスを考案し、異なるモダリティから意味的に共有された有能な情報を定式化する。
その結果, モダリティの共通性, 健全性, 関連性のある内容が同定された。
次に、モダリティ内およびモダリティ間学習のためのモーダル間注目変換器を開発し、共有情報ガイダンスを用いて、極端な要約を生成する。
総合的な実験により、SITransformerはXMSMOの動画とテキストの要約の要約品質を大幅に向上させることが示された。
私たちのコードはhttps://github.com/SichengLeoLiu/MMAsia24-XMSMOで公開されます。
関連論文リスト
- Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval [36.50847375135979]
ビデオデータからのマルチモーダル学習は、人間のアノテーションを使わずに意味のある埋め込みを訓練できるため、近年注目を集めている。
本稿では,ビデオ,音声,テキストなどの複数のモーダル間の情報交換を学習し,それらを結合したマルチモーダル表現に統合するマルチモーダル・モーダル融合トランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2021-12-08T18:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。