論文の概要: Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference
- arxiv url: http://arxiv.org/abs/2108.05123v1
- Date: Wed, 11 Aug 2021 09:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:34:19.029685
- Title: Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference
- Title(参考訳): 選択的マルチモーダル参照の誘導による抽象文要約
- Authors: Zijian Zhang, Chenxi Zhang, Qinpei Zhao, Jiangfeng Li
- Abstract要約: モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
- 参考スコア(独自算出の注目度): 3.505062507621494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal abstractive summarization with sentence output is to generate a
textual summary given a multimodal triad -- sentence, image and audio, which
has been proven to improve users satisfaction and convenient our life. Existing
approaches mainly focus on the enhancement of multimodal fusion, while ignoring
the unalignment among multiple inputs and the emphasis of different segments in
feature, which has resulted in the superfluity of multimodal interaction. To
alleviate these problems, we propose a Multimodal Hierarchical Selective
Transformer (mhsf) model that considers reciprocal relationships among
modalities (by low-level cross-modal interaction module) and respective
characteristics within single fusion feature (by high-level selective routing
module). In details, it firstly aligns the inputs from different sources and
then adopts a divide and conquer strategy to highlight or de-emphasize
multimodal fusion representation, which can be seen as a sparsely feed-forward
model - different groups of parameters will be activated facing different
segments in feature. We evaluate the generalism of proposed mhsf model with the
pre-trained+fine-tuning and fresh training strategies. And Further experimental
results on MSMO demonstrate that our model outperforms SOTA baselines in terms
of ROUGE, relevance scores and human evaluation.
- Abstract(参考訳): 文出力による多モーダル抽象要約は, ユーザの満足度の向上と生活の便宜を実証した, 多モーダルな三進法 – 文, 画像, 音声 – を与えられたテキスト要約を生成する。
既存のアプローチは主にマルチモーダル核融合の強化に重点を置いているが、複数の入力の不整合を無視し、特徴における異なるセグメントの強調は多モーダル相互作用の超流動をもたらす。
これらの問題を緩和するために,マルチモーダル階層型選択的トランスフォーマタ(mhsf)モデルを提案し,低レベルクロスモーダルインタラクションモジュールによる)モダリティと,単一融合機能(高レベル選択的ルーティングモジュールによる)内の各特性の相互関係を考察する。
詳しくは、まず異なるソースからの入力を調整し、次に分割と克服戦略を採用して、スパースなフィードフォワードモデルと見なすことができるマルチモーダル融合表現を強調または強調する。
提案するmhsfモデルの一般化を,事前学習+微調整およびフレッシュトレーニング戦略を用いて評価する。
さらに, ROUGE, 関連スコア, 人的評価の点から, モデルがSOTAベースラインより優れていることを示す。
関連論文リスト
- Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Improving Multimodal Sentiment Analysis: Supervised Angular Margin-based
Contrastive Learning for Enhanced Fusion Representation [10.44888349041063]
マルチモーダル・センティメント・アナリティクスのためのコントラシブ・ラーニング・フレームワークであるSupervised Angularを導入する。
この枠組みは,マルチモーダル表現の識別と一般化性を高め,融合ベクトルのモダリティのバイアスを克服することを目的としている。
論文 参考訳(メタデータ) (2023-12-04T02:58:19Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A Self-Adjusting Fusion Representation Learning Model for Unaligned
Text-Audio Sequences [16.38826799727453]
融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の1つとなっている。
本稿では,不整合テキストや音声シーケンスから直接,頑健な相互拡散表現を学習するために,自己調整型融合表現学習モデルを提案する。
実験結果から,本モデルでは不整合テキスト・オーディオ・シーケンスにおける全ての指標の性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2022-11-12T13:05:28Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。