論文の概要: Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization
- arxiv url: http://arxiv.org/abs/2212.07672v2
- Date: Thu, 4 May 2023 10:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 19:20:04.032835
- Title: Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization
- Title(参考訳): マルチモーダル抽象要約のための概要指向ビジョンモデリング
- Authors: Yunlong Liang, Fandong Meng, Jinan Xu, Jiaan Wang, Yufeng Chen, Jie
Zhou
- Abstract要約: マルチモーダル抽象要約(MAS)は、マルチモーダルデータ(テキストとビジョン)から簡潔な要約を作成することを目的としている。
本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。
中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
- 参考スコア(独自算出の注目度): 63.320005222549646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal abstractive summarization (MAS) aims to produce a concise summary
given the multimodal data (text and vision). Existing studies mainly focus on
how to effectively use the visual features from the perspective of an article,
having achieved impressive success on the high-resource English dataset.
However, less attention has been paid to the visual features from the
perspective of the summary, which may limit the model performance, especially
in the low- and zero-resource scenarios. In this paper, we propose to improve
the summary quality through summary-oriented visual features. To this end, we
devise two auxiliary tasks including vision to summary task and masked image
modeling task. Together with the main summarization task, we optimize the MAS
model via the training objectives of all these tasks. By these means, the MAS
model can be enhanced by capturing the summary-oriented visual features,
thereby yielding more accurate summaries. Experiments on 44 languages, covering
mid-high-, low-, and zero-resource scenarios, verify the effectiveness and
superiority of the proposed approach, which achieves state-of-the-art
performance under all scenarios. Additionally, we will contribute a large-scale
multilingual multimodal abstractive summarization (MM-Sum) dataset.
- Abstract(参考訳): multimodal abstractive summarization (mas) は、マルチモーダルデータ(テキストとビジョン)を与えられた簡潔な要約を作成することを目的としている。
既存の研究は主に記事の観点から視覚的特徴を効果的に活用する方法に焦点を当てており、高リソースの英語データセットで素晴らしい成功を収めた。
しかし、要約の観点からは視覚的特徴にはあまり注意が払われておらず、特に低リソースとゼロリソースのシナリオでは、モデルの性能が制限される可能性がある。
本稿では,要約指向の視覚的特徴を通して要約品質を向上させることを提案する。
この目的のために,視覚要約タスクとマスク画像モデリングタスクという2つの補助タスクを考案する。
主要な要約タスクとともに、これらのタスクの訓練目的を通したMASモデルを最適化する。
これにより、要約指向の視覚的特徴をキャプチャすることで、masモデルを強化することが可能となり、より正確な要約が得られる。
中・低・ゼロリソースのシナリオをカバーする44言語の実験では、すべてのシナリオにおいて最先端のパフォーマンスを実現する提案手法の有効性と優位性を検証する。
さらに,多言語多モーダル抽象要約(mm-sum)データセットにも貢献する。
関連論文リスト
- Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization [25.052557735932535]
大規模言語モデル(LLM)は、自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
本稿ではアスペクトベース要約タスクにおける微調整LDMの可能性について検討する。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-05T16:00:21Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization [113.72253589338472]
many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-22T06:47:35Z) - Learning Summary-Worthy Visual Representation for Abstractive
Summarization in Video [34.202514532882]
本稿では,抽象的な要約を容易にする要約価値のある視覚表現を学習するための新しいアプローチを提案する。
本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から, 要約に値する情報を利用する。
論文 参考訳(メタデータ) (2023-05-08T16:24:46Z) - UniMS: A Unified Framework for Multimodal Summarization with Knowledge
Distillation [43.15662489492694]
本稿では,BART,UniMSに基づくマルチモーダル要約のための統一フレームワークを提案する。
我々は、画像選択を改善するために、視覚言語事前学習モデルから知識蒸留を採用する。
我々の最良のモデルは、大規模ベンチマークデータセットで新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-09-13T09:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。