論文の概要: TLDW: Extreme Multimodal Summarisation of News Videos
- arxiv url: http://arxiv.org/abs/2210.08481v1
- Date: Sun, 16 Oct 2022 08:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:15:01.122861
- Title: TLDW: Extreme Multimodal Summarisation of News Videos
- Title(参考訳): tldw:ニュースビデオの極端なマルチモーダル要約
- Authors: Peggy Tang, Kun Hu, Lei Zhang, Jiebo Luo, Zhiyong Wang
- Abstract要約: TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
- 参考スコア(独自算出の注目度): 76.50305095899958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal summarisation with multimodal output is drawing increasing
attention due to the rapid growth of multimedia data. While several methods
have been proposed to summarise visual-text contents, their multimodal outputs
are not succinct enough at an extreme level to address the information overload
issue. To the end of extreme multimodal summarisation, we introduce a new task,
eXtreme Multimodal Summarisation with Multimodal Output (XMSMO) for the
scenario of TL;DW - Too Long; Didn't Watch, akin to TL;DR. XMSMO aims to
summarise a video-document pair into a summary with an extremely short length,
which consists of one cover frame as the visual summary and one sentence as the
textual summary. We propose a novel unsupervised Hierarchical Optimal Transport
Network (HOT-Net) consisting of three components: hierarchical multimodal
encoders, hierarchical multimodal fusion decoders, and optimal transport
solvers. Our method is trained, without using reference summaries, by
optimising the visual and textual coverage from the perspectives of the
distance between the semantic distributions under optimal transport plans. To
facilitate the study on this task, we collect a large-scale dataset XMSMO-News
by harvesting 4,891 video-document pairs. The experimental results show that
our method achieves promising performance in terms of ROUGE and IoU metrics.
- Abstract(参考訳): マルチメディアデータの急速な成長により,マルチモーダル出力によるマルチモーダル要約が注目されている。
視覚的テキストの内容を要約するいくつかの手法が提案されているが、そのマルチモーダル出力は情報過負荷問題に対処するには極端に簡潔ではない。
tl;dw - too long; didn't watch, alike to tl;dr というシナリオのために,マルチモーダルアウトプット (xmsmo) を用いた極端にマルチモーダルなサムマリゼーション (extreme multimodal summarization) というタスクを導入する。
xmsmoの目的は、ビデオドキュメントペアを非常に短い長さの要約にまとめることであり、ビジュアル要約として1つのカバーフレーム、テキスト要約として1つの文からなる。
本稿では,階層型マルチモーダルエンコーダ,階層型マルチモーダル融合デコーダ,最適トランスポートソルバの3成分からなる,教師なし階層型最適トランスポートネットワーク(hot-net)を提案する。
本手法は, 最適輸送計画における意味分布間の距離の観点から, 視覚的・テキスト的カバレッジを最適化することで, 参照要約を用いずに学習する。
そこで本研究では,4,891対のビデオ文書を抽出し,大規模データセットXMSMO-Newsを収集する。
実験結果から,ROUGEとIoUの指標を用いて,提案手法が有望な性能を達成できることが示唆された。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - CISum: Learning Cross-modality Interaction to Enhance Multimodal
Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。
視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。
そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2023-02-20T11:57:23Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - Semantics-Consistent Cross-domain Summarization via Optimal Transport
Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。
提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文 参考訳(メタデータ) (2022-10-10T14:27:10Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。