論文の概要: Semantics-Consistent Cross-domain Summarization via Optimal Transport
Alignment
- arxiv url: http://arxiv.org/abs/2210.04722v1
- Date: Mon, 10 Oct 2022 14:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:14:46.322136
- Title: Semantics-Consistent Cross-domain Summarization via Optimal Transport
Alignment
- Title(参考訳): 最適輸送アライメントによるセマンティックス-一貫性クロスドメイン要約
- Authors: Jielin Qiu, Jiacheng Zhu, Mengdi Xu, Franck Dernoncourt, Trung Bui,
Zhaowen Wang, Bo Li, Ding Zhao, Hailin Jin
- Abstract要約: 本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。
提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
- 参考スコア(独自算出の注目度): 80.18786847090522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia summarization with multimodal output (MSMO) is a recently explored
application in language grounding. It plays an essential role in real-world
applications, i.e., automatically generating cover images and titles for news
articles or providing introductions to online videos. However, existing methods
extract features from the whole video and article and use fusion methods to
select the representative one, thus usually ignoring the critical structure and
varying semantics. In this work, we propose a Semantics-Consistent Cross-domain
Summarization (SCCS) model based on optimal transport alignment with visual and
textual segmentation. In specific, our method first decomposes both video and
article into segments in order to capture the structural semantics,
respectively. Then SCCS follows a cross-domain alignment objective with optimal
transport distance, which leverages multimodal interaction to match and select
the visual and textual summary. We evaluated our method on three recent
multimodal datasets and demonstrated the effectiveness of our method in
producing high-quality multimodal summaries.
- Abstract(参考訳): マルチモーダル・アウトプット(MSMO)を用いたマルチメディア要約は,最近検討された言語基盤への応用である。
現実世界のアプリケーション、すなわちニュース記事のカバーイメージやタイトルを自動的に生成したり、オンラインビデオの紹介を行う上で重要な役割を果たす。
しかし、既存の手法は映像や記事全体から特徴を抽出し、融合法を用いて代表的なものを選択するため、通常は臨界構造や様々な意味論を無視している。
本研究では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタント・クロスドメイン・サマリゼーション(SCCS)モデルを提案する。
具体的には,まずビデオと記事の両方をセグメントに分解し,構造的意味論を抽出する。
次に、sccは最適な移動距離を持つクロスドメインアライメントの目的に従い、マルチモーダルな相互作用を利用して視覚的およびテキスト的要約をマッチングおよび選択する。
提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - CISum: Learning Cross-modality Interaction to Enhance Multimodal
Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。
視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。
そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2023-02-20T11:57:23Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Comprehensive Multi-Modal Interactions for Referring Image Segmentation [7.064383217512461]
与えられた自然言語記述に対応するセグメンテーションマップを出力する参照画像(RIS)について検討する。
RISを効率的に解くためには、各単語が他の単語、画像内の各領域と他の領域との関係、および言語と視覚ドメイン間の相互モーダルアライメントを理解する必要があります。
本稿では,この課題に対処するための共同推論 (JRM) モジュールと,新しいクロスモーダル多層融合 (CMMLF) モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-21T08:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。