論文の概要: Modeling Paragraph-Level Vision-Language Semantic Alignment for
Multi-Modal Summarization
- arxiv url: http://arxiv.org/abs/2208.11303v1
- Date: Wed, 24 Aug 2022 05:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:05:17.933980
- Title: Modeling Paragraph-Level Vision-Language Semantic Alignment for
Multi-Modal Summarization
- Title(参考訳): マルチモーダル要約のためのパラグラフレベル視覚言語セマンティックアライメントのモデル化
- Authors: Xinnian Liang, Chenhao Cui, Shuangzhi Wu, Jiali Zeng, Yufan Jiang,
Zhoujun Li
- Abstract要約: We propose ViL-Sum to jointly model of paragraph-level textbfVision-textbfLanguage Semantic Alignment and Multi-Modal textbfSummarization。
ViL-Sumのコアは、よく設計された2つのタスク、画像の並べ替えと画像選択を備えたマルチモーダルエンコーダである。
実験結果から,提案したViL-Sumは最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 24.442026212233603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most current multi-modal summarization methods follow a cascaded manner,
where an off-the-shelf object detector is first used to extract visual
features, then these features are fused with language representations to
generate the summary with an encoder-decoder model. The cascaded way cannot
capture the semantic alignments between images and paragraphs, which are
crucial to a precise summary. In this paper, we propose ViL-Sum to jointly
model paragraph-level \textbf{Vi}sion-\textbf{L}anguage Semantic Alignment and
Multi-Modal \textbf{Sum}marization. The core of ViL-Sum is a joint multi-modal
encoder with two well-designed tasks, image reordering and image selection. The
joint multi-modal encoder captures the interactions between modalities, where
the reordering task guides the model to learn paragraph-level semantic
alignment and the selection task guides the model to selected summary-related
images in the final summary. Experimental results show that our proposed
ViL-Sum significantly outperforms current state-of-the-art methods. In further
analysis, we find that two well-designed tasks and joint multi-modal encoder
can effectively guide the model to learn reasonable paragraphs-images and
summary-images relations.
- Abstract(参考訳): 現行のマルチモーダル要約法では,まず外装オブジェクト検出器を用いて視覚的特徴を抽出し,これらの特徴を言語表現と融合させてエンコーダ・デコーダモデルを用いて要約を生成する。
カスケードされた方法では、正確な要約に不可欠である画像と段落間の意味的アライメントをキャプチャできない。
本稿では, ViL-Sum を用いて, 段落レベル textbf{Vi}sion-\textbf{L}anguage Semantic Alignment と Multi-Modal \textbf{Sum}marization を共同でモデル化する。
ViL-Sumのコアは、よく設計された2つのタスク、画像の並べ替えと画像選択を備えたマルチモーダルエンコーダである。
ジョイントマルチモーダルエンコーダはモダリティ間の相互作用をキャプチャし、再順序付けタスクがモデルに段落レベルの意味的アライメントを学習させ、選択タスクが最終要約で選択された要約関連画像にモデルをガイドする。
実験結果から,提案したViL-Sumは最先端手法よりも優れていた。
さらに,2つのよく設計されたタスクと共同マルチモーダルエンコーダが,合理的な段落関係と要約関係を学習するために効果的にモデルを導出できることを見出した。
関連論文リスト
- Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization [63.320005222549646]
マルチモーダル抽象要約(MAS)は、マルチモーダルデータ(テキストとビジョン)から簡潔な要約を作成することを目的としている。
本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。
中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-12-15T09:05:26Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - UniMS: A Unified Framework for Multimodal Summarization with Knowledge
Distillation [43.15662489492694]
本稿では,BART,UniMSに基づくマルチモーダル要約のための統一フレームワークを提案する。
我々は、画像選択を改善するために、視覚言語事前学習モデルから知識蒸留を採用する。
我々の最良のモデルは、大規模ベンチマークデータセットで新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-09-13T09:36:04Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Topic-Guided Abstractive Text Summarization: a Joint Learning Approach [19.623946402970933]
本稿では,抽象テキスト要約のための新しいアプローチ,トピックガイドによる抽象要約を提案する。
ニューラルネットワークをTransformerベースのシーケンス・ツー・シーケンス(seq2seq)モデルに結合学習フレームワークに組み込むことが目的だ。
論文 参考訳(メタデータ) (2020-10-20T14:45:25Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。