論文の概要: Vision Guided Generative Pre-trained Language Models for Multimodal
Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2109.02401v2
- Date: Wed, 8 Sep 2021 02:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 11:22:56.794601
- Title: Vision Guided Generative Pre-trained Language Models for Multimodal
Abstractive Summarization
- Title(参考訳): マルチモーダル抽象要約のための視覚誘導生成事前学習言語モデル
- Authors: Tiezheng Yu, Wenliang Dai, Zihan Liu, Pascale Fung
- Abstract要約: 本稿では,視覚誘導型(VG)Msをアテンションベースのアドオン層を用いて構築する,シンプルで効果的な手法を提案する。
我々の最良のモデルは、ハウ2データセットの5.7 ROUGE-1、5.3 ROUGE-2、および5.1 ROUGE-Lスコアにより、先行技術モデルを大幅に上回る。
- 参考スコア(独自算出の注目度): 38.52054911258208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal abstractive summarization (MAS) models that summarize videos
(vision modality) and their corresponding transcripts (text modality) are able
to extract the essential information from massive multimodal data on the
Internet. Recently, large-scale generative pre-trained language models (GPLMs)
have been shown to be effective in text generation tasks. However, existing MAS
models cannot leverage GPLMs' powerful generation ability. To fill this
research gap, we aim to study two research questions: 1) how to inject visual
information into GPLMs without hurting their generation ability; and 2) where
is the optimal place in GPLMs to inject the visual information? In this paper,
we present a simple yet effective method to construct vision guided (VG) GPLMs
for the MAS task using attention-based add-on layers to incorporate visual
information while maintaining their original text generation ability. Results
show that our best model significantly surpasses the prior state-of-the-art
model by 5.7 ROUGE-1, 5.3 ROUGE-2, and 5.1 ROUGE-L scores on the How2 dataset,
and our visual guidance method contributes 83.6% of the overall improvement.
Furthermore, we conduct thorough ablation studies to analyze the effectiveness
of various modality fusion methods and fusion locations.
- Abstract(参考訳): multimodal abstractive summarization (mas) モデルは、ビデオ(視覚モダリティ)とその対応するトランスクリプト(テキストモダリティ)を要約し、インターネット上の膨大なマルチモーダルデータから本質的な情報を抽出することができる。
近年,大規模な生成事前学習言語モデル (GPLM) がテキスト生成に有効であることが示されている。
しかし、既存のMASモデルはGPLMの強力な生成能力を活用できない。
この研究のギャップを埋めるために,1) 生成能力を損なうことなく gplms に視覚情報を注入する方法,2) 視覚情報を注入するのに gplms の最適位置は何か,という2つの研究課題を考察する。
本稿では,視覚情報を付加し,本来のテキスト生成能力を維持しつつ,注意型アドオンレイヤを用いて視覚誘導(VG) GPLMsをMASタスクに構築する,シンプルで効果的な方法を提案する。
結果から,本モデルが従来モデルより5.7 ROUGE-1,5.3 ROUGE-2,5.1 ROUGE-Lのスコアを大きく上回り,視覚指導手法が全体の改善の83.6%に寄与していることがわかった。
さらに,様々なモード性融合法と核融合位置の有効性を分析するため,徹底的なアブレーション研究を行った。
関連論文リスト
- Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations [12.154043062308201]
本稿では,三重モダリティの融合を活かした,多行動レコメンデーションのための新しいフレームワークを提案する。
提案モデルであるTriple Modality Fusion (TMF)は,大規模言語モデル(LLM)のパワーを利用して,これらの3つのモダリティを調整・統合する。
大規模な実験により,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-16T04:44:15Z) - Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Enhancing SLM via ChatGPT and Dataset Augmentation [0.3844771221441211]
我々は,大言語モデル (LLMs) と小言語モデル (SLMs) のパフォーマンスギャップを埋めるために,知識蒸留技術と合成データセット拡張を用いている。
提案手法は,情報抽出と情報推論という2種類の理性生成を伴い,ANLIデータセットを充実させる。
その結果, 合成合理化によって自然言語の理解能力が向上し, ANLIデータセット上での分類精度が1.3%, 2.3%向上することが判明した。
論文 参考訳(メタデータ) (2024-09-19T09:24:36Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study [32.57246173437492]
本稿では,SOTA(State-of-the-art Object Detection)モデルとOCR(Optical Character Recognition)モデルを用いてMLLMの高機能化に関する実証的研究を行った。
LLaVA-1.5, DINO, PaddleOCRv2, Grounding DINOなどの代表モデルを用いて, 系統的および広範囲な実験を行った。
強化されたLLaVA-1.5は、オリジナルの7B/13Bモデルを10ベンチマークすべてで上回り、正規化平均スコアで最大12.5%向上した。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。