論文の概要: Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization
- arxiv url: http://arxiv.org/abs/2212.07672v1
- Date: Thu, 15 Dec 2022 09:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 15:58:46.698260
- Title: Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization
- Title(参考訳): マルチモーダル抽象要約のための概要指向ビジョンモデリング
- Authors: Yunlong Liang, Fandong Meng, Jinan Xu, Jiaan Wang, Yufeng Chen, Jie
Zhou
- Abstract要約: マルチモーダル抽象要約(MAS)の目標は、マルチモーダルデータ(テキストとビジョン)が与えられた簡潔な要約を作成することである。
本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。
中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
- 参考スコア(独自算出の注目度): 63.320005222549646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of multimodal abstractive summarization (MAS) is to produce a
concise summary given the multimodal data (text and vision). Existing studies
on MAS mainly focus on how to effectively use the extracted visual features,
having achieved impressive success on the high-resource English dataset.
However, less attention has been paid to the quality of the visual features to
the summary, which may limit the model performance especially in the low- and
zero-resource scenarios. In this paper, we propose to improve the summary
quality through summary-oriented visual features. To this end, we devise two
auxiliary tasks including \emph{vision to summary task} and \emph{masked image
modeling task}. Together with the main summarization task, we optimize the MAS
model via the training objectives of all these tasks. By these means, the MAS
model can be enhanced by capturing the summary-oriented visual features,
thereby yielding more accurate summaries. Experiments on 44 languages, covering
mid-high-, low-, and zero-resource scenarios, verify the effectiveness and
superiority of the proposed approach, which achieves state-of-the-art
performance under all scenarios.
- Abstract(参考訳): multimodal abstractive summarization (mas) の目標は、マルチモーダルデータ(テキストとビジョン)を与えられた簡潔な要約を作成することである。
既存のMASの研究は主に抽出された視覚的特徴を効果的に活用することに焦点を当てており、高リソースの英語データセットで素晴らしい成功を収めた。
しかし、要約まで視覚的特徴の品質にはあまり注意が払われておらず、特に低リソースとゼロリソースのシナリオではモデルの性能が制限される可能性がある。
本稿では,要約指向の視覚的特徴を通して要約品質を向上させることを提案する。
この目的のために,<emph{vision to summary task}と<emph{masked image modeling task}の2つの補助タスクを考案した。
主要な要約タスクとともに、これらのタスクの訓練目的を通したMASモデルを最適化する。
これにより、要約指向の視覚的特徴をキャプチャすることで、masモデルを強化することが可能となり、より正確な要約が得られる。
中・低・ゼロリソースのシナリオをカバーする44言語の実験では、すべてのシナリオにおいて最先端のパフォーマンスを実現する提案手法の有効性と優位性を検証する。
関連論文リスト
- Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization [25.052557735932535]
大規模言語モデル(LLM)は、自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
本稿ではアスペクトベース要約タスクにおける微調整LDMの可能性について検討する。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-05T16:00:21Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:47:35Z) - Learning Summary-Worthy Visual Representation for Abstractive
Summarization in Video [34.202514532882]
本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。
本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
論文 参考訳(メタデータ) (2023-05-08T16:24:46Z) - UniMS: A Unified Framework for Multimodal Summarization with Knowledge
Distillation [43.15662489492694]
本稿では,BART,UniMSに基づくマルチモーダル要約のための統一フレームワークを提案する。
我々は、画像選択を改善するために、視覚言語事前学習モデルから知識蒸留を採用する。
我々の最良のモデルは、大規模ベンチマークデータセットで新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-09-13T09:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。