Fugu-MT 論文翻訳(概要): MHMS: Multimodal Hierarchical Multimedia Summarization

論文の概要: MHMS: Multimodal Hierarchical Multimedia Summarization

arxiv url: http://arxiv.org/abs/2204.03734v1
Date: Thu, 7 Apr 2022 21:00:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-11 12:15:27.257206
Title: MHMS: Multimodal Hierarchical Multimedia Summarization
Title（参考訳）: MHMS:マルチモーダル階層型マルチメディア要約
Authors: Jielin Qiu, Jiacheng Zhu, Mengdi Xu, Franck Dernoncourt, Trung Bui, Zhaowen Wang, Bo Li, Ding Zhao, Hailin Jin
Abstract要約: 視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
参考スコア（独自算出の注目度）: 80.18786847090522
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimedia summarization with multimodal output can play an essential role in real-world applications, i.e., automatically generating cover images and titles for news articles or providing introductions to online videos. In this work, we propose a multimodal hierarchical multimedia summarization (MHMS) framework by interacting visual and language domains to generate both video and textual summaries. Our MHMS method contains video and textual segmentation and summarization module, respectively. It formulates a cross-domain alignment objective with optimal transport distance which leverages cross-domain interaction to generate the representative keyframe and textual summary. We evaluated MHMS on three recent multimodal datasets and demonstrated the effectiveness of our method in producing high-quality multimodal summaries.
Abstract（参考訳）: マルチモーダル出力によるマルチメディア要約は、ニュース記事のカバー画像やタイトルの自動生成やオンラインビデオの紹介など、現実世界のアプリケーションにおいて重要な役割を果たす。本研究では、視覚領域と言語領域を相互作用させてビデオとテキストの要約を生成するマルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。 MHMS法はビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。最適な移動距離を持つクロスドメインアライメントの目的を定式化し、クロスドメイン相互作用を利用して代表キーフレームとテキスト要約を生成する。我々は,MHMSを最近の3つのマルチモーダルデータセットで評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。

関連論文リスト

Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文参考訳（メタデータ） (2024-07-14T07:12:25Z)
CISum: Learning Cross-modality Interaction to Enhance Multimodal Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文参考訳（メタデータ） (2023-02-20T11:57:23Z)
TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。 XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文参考訳（メタデータ） (2022-10-16T08:19:59Z)
Semantics-Consistent Cross-domain Summarization via Optimal Transport Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文参考訳（メタデータ） (2022-10-10T14:27:10Z)
VMSMO: Learning to Generate Multimodal Summary for Video-based News Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文参考訳（メタデータ） (2020-10-12T02:19:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。