論文の概要: SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization
- arxiv url: http://arxiv.org/abs/2408.15829v1
- Date: Wed, 28 Aug 2024 14:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:40:56.155548
- Title: SITransformer: Shared Information-Guided Transformer for Extreme Multimodal Summarization
- Title(参考訳): SI変換器:極多モード要約のための共有情報誘導変換器
- Authors: Sicheng Liu, Lintao Wang, Xiaogan Zhu, Xuequan Lu, Zhiyong Wang, Kun Hu,
- Abstract要約: XMSMO (Extreme Multimodal Summarization with Multimodal Output) は魅力的な要約手法である。
既存のメソッドは、マルチモーダルデータが関連のない情報を含むことが多い問題を見落としている。
極端なマルチモーダル要約のためのtextbfShared textbfIn-guided textbfTransformer である SITransformer を提案する。
- 参考スコア(独自算出の注目度): 19.190627262112486
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Extreme Multimodal Summarization with Multimodal Output (XMSMO) becomes an attractive summarization approach by integrating various types of information to create extremely concise yet informative summaries for individual modalities. Existing methods overlook the issue that multimodal data often contains more topic irrelevant information, which can mislead the model into producing inaccurate summaries especially for extremely short ones. In this paper, we propose SITransformer, a \textbf{S}hared \textbf{I}nformation-guided \textbf{T}ransformer for extreme multimodal summarization. It has a shared information guided pipeline which involves a cross-modal shared information extractor and a cross-modal interaction module. The extractor formulates semantically shared salient information from different modalities by devising a novel filtering process consisting of a differentiable top-k selector and a shared-information guided gating unit. As a result, the common, salient, and relevant contents across modalities are identified. Next, a transformer with cross-modal attentions is developed for intra- and inter-modality learning with the shared information guidance to produce the extreme summary. Comprehensive experiments demonstrate that SITransformer significantly enhances the summarization quality for both video and text summaries for XMSMO. Our code will be publicly available at https://github.com/SichengLeoLiu/MMAsia24-XMSMO.
- Abstract(参考訳): XMSMO(Extreme Multimodal Summarization with Multimodal Output)は、様々な種類の情報を統合して、非常に簡潔で情報的な要約を生成することで、魅力的な要約手法となる。
既存の手法では、マルチモーダルデータには関連性のない情報が多く含まれており、特に非常に短いデータに対して、モデルが不正確な要約を生成することを誤解させる可能性がある。
本稿では,超多モード要約のためのSITransformer, a \textbf{S}hared \textbf{I}nformation-guided \textbf{T}ransformerを提案する。
クロスモーダル共有情報抽出器とクロスモーダルインタラクションモジュールを含む共有情報ガイドパイプラインを備える。
抽出器は、識別可能なトップkセレクタと共有情報案内ゲーティングユニットからなる新規なフィルタリングプロセスを考案し、異なるモダリティから意味的に共有された有能な情報を定式化する。
その結果, モダリティの共通性, 健全性, 関連性のある内容が同定された。
次に、モダリティ内およびモダリティ間学習のためのモーダル間注目変換器を開発し、共有情報ガイダンスを用いて、極端な要約を生成する。
総合的な実験により、SITransformerはXMSMOの動画とテキストの要約の要約品質を大幅に向上させることが示された。
私たちのコードはhttps://github.com/SichengLeoLiu/MMAsia24-XMSMOで公開されます。
関連論文リスト
- NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - A Topic-aware Summarization Framework with Different Modal Side
Information [40.11141446039445]
本稿では,様々な側面情報を柔軟に組み込んだ一般的な要約フレームワークを提案する。
まず,文書と各種の側情報から潜在トピックを共同で発見する,統合されたトピックエンコーダを提案する。
その結果,我々のモデルは,3つの公開単一モーダルまたはマルチモーダルベンチマークの要約データセットに対して,強いベースラインをはるかに超えていることがわかった。
論文 参考訳(メタデータ) (2023-05-19T08:09:45Z) - Learning Summary-Worthy Visual Representation for Abstractive
Summarization in Video [34.202514532882]
本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。
本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
論文 参考訳(メタデータ) (2023-05-08T16:24:46Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。