Fugu-MT 論文翻訳(概要): CISum: Learning Cross-modality Interaction to Enhance Multimodal Semantic Coverage for Multimodal Summarization

論文の概要: CISum: Learning Cross-modality Interaction to Enhance Multimodal Semantic Coverage for Multimodal Summarization

arxiv url: http://arxiv.org/abs/2302.09934v1
Date: Mon, 20 Feb 2023 11:57:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-21 15:34:21.973070
Title: CISum: Learning Cross-modality Interaction to Enhance Multimodal Semantic Coverage for Multimodal Summarization
Title（参考訳）: cisum:マルチモーダル要約のためのマルチモーダルセマンティクスカバレッジ向上のためのクロスモダリティインタラクションの学習
Authors: Litian Zhang, Xiaoming Zhang, Ziming Guo, Zhipeng Liu
Abstract要約: 本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
参考スコア（独自算出の注目度）: 2.461695698601437
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal summarization (MS) aims to generate a summary from multimodal input. Previous works mainly focus on textual semantic coverage metrics such as ROUGE, which considers the visual content as supplemental data. Therefore, the summary is ineffective to cover the semantics of different modalities. This paper proposes a multi-task cross-modality learning framework (CISum) to improve multimodal semantic coverage by learning the cross-modality interaction in the multimodal article. To obtain the visual semantics, we translate images into visual descriptions based on the correlation with text content. Then, the visual description and text content are fused to generate the textual summary to capture the semantics of the multimodal content, and the most relevant image is selected as the visual summary. Furthermore, we design an automatic multimodal semantics coverage metric to evaluate the performance. Experimental results show that CISum outperforms baselines in multimodal semantics coverage metrics while maintaining the excellent performance of ROUGE and BLEU.
Abstract（参考訳）: multimodal summarization (ms) はマルチモーダル入力から要約を生成することを目的としている。これまでの研究は主に、視覚内容を補足データとみなすROUGEのようなテキストセマンティックカバレッジメトリクスに焦点を当てていた。したがって、要約は異なるモダリティのセマンティクスをカバーするのに効果がない。本稿では,マルチモーダル記事におけるクロスモーダルインタラクションを学習することにより,マルチモーダル意味範囲を改善するマルチタスククロスモーダル学習フレームワーク(cisum)を提案する。視覚意味論を得るために,テキスト内容との相関に基づいて画像を視覚的な記述に翻訳する。そして、視覚記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャし、最も関連性の高い画像を視覚要約として選択する。さらに、性能を評価するために、自動マルチモーダルセマンティクスカバレッジメトリックを設計する。実験の結果,CISumはROUGEとBLEUの優れた性能を維持しつつ,マルチモーダルセマンティクスのカバレッジ指標のベースラインよりも優れていた。

関連論文リスト

Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T14:27:30Z)
Multimodal Remote Sensing Scene Classification Using VLMs and Dual-Cross Attention Networks [0.8999666725996978]
本稿では,大規模な視覚言語モデル(VLM)によって生成されたテキスト記述を,高価な手作業による注釈コストを伴わずに補助的なモダリティとして統合する新しいRSSCフレームワークを提案する。 5つのRSSCデータセットの定量的および定性的な評価実験により、我々のフレームワークがベースラインモデルより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-12-03T16:24:16Z)
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。 1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文参考訳（メタデータ） (2024-09-30T05:25:51Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
A Multi-Modal Context Reasoning Approach for Conditional Inference on Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。我々はModCRというマルチモーダルコンテキスト推論手法を提案する。 2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文参考訳（メタデータ） (2023-05-08T08:05:40Z)
Summary-Oriented Vision Modeling for Multimodal Abstractive Summarization [63.320005222549646]
マルチモーダル抽象要約(MAS)は、マルチモーダルデータ(テキストとビジョン)から簡潔な要約を作成することを目的としている。本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
論文参考訳（メタデータ） (2022-12-15T09:05:26Z)
TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。 XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文参考訳（メタデータ） (2022-10-16T08:19:59Z)
Semantics-Consistent Cross-domain Summarization via Optimal Transport Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文参考訳（メタデータ） (2022-10-10T14:27:10Z)
MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文参考訳（メタデータ） (2022-04-07T21:00:40Z)
See, Hear, Read: Leveraging Multimodality with Guided Attention for Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文参考訳（メタデータ） (2021-05-20T08:56:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。