論文の概要: D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization
- arxiv url: http://arxiv.org/abs/2305.12767v2
- Date: Mon, 16 Oct 2023 10:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:17:41.326749
- Title: D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling
for Many-to-Many Multimodal Summarization
- Title(参考訳): D$^2$TV:多対多マルチモーダル要約のための二重知識蒸留とターゲット指向ビジョンモデリング
- Authors: Yunlong Liang, Fandong Meng, Jiaan Wang, Jinan Xu, Yufeng Chen, Jie
Zhou
- Abstract要約: many-to-many multimodal summarization (M$3$S) タスクは、どんな言語でも文書入力と対応する画像シーケンスで要約を生成することを目的としている。
本稿では,M$3$Sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 113.72253589338472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many-to-many multimodal summarization (M$^3$S) task aims to generate
summaries in any language with document inputs in any language and the
corresponding image sequence, which essentially comprises multimodal
monolingual summarization (MMS) and multimodal cross-lingual summarization
(MXLS) tasks. Although much work has been devoted to either MMS or MXLS and has
obtained increasing attention in recent years, little research pays attention
to the M$^3$S task. Besides, existing studies mainly focus on 1) utilizing MMS
to enhance MXLS via knowledge distillation without considering the performance
of MMS or 2) improving MMS models by filtering summary-unrelated visual
features with implicit learning or explicitly complex training objectives. In
this paper, we first introduce a general and practical task, i.e., M$^3$S.
Further, we propose a dual knowledge distillation and target-oriented vision
modeling framework for the M$^3$S task. Specifically, the dual knowledge
distillation method guarantees that the knowledge of MMS and MXLS can be
transferred to each other and thus mutually prompt both of them. To offer
target-oriented visual features, a simple yet effective target-oriented
contrastive objective is designed and responsible for discarding needless
visual information. Extensive experiments on the many-to-many setting show the
effectiveness of the proposed approach. Additionally, we will contribute a
many-to-many multimodal summarization (M$^3$Sum) dataset.
- Abstract(参考訳): many-to-many multimodal summarization (M$^3$S) タスクは、任意の言語における文書入力と、MMS(Multimodal monolingual summarization)タスクとMXLS(Multimodal cross-lingual summarization)タスクからなる対応する画像シーケンスを持つ任意の言語における要約を生成することを目的としている。
MMS や MXLS に多くの研究が注がれており、近年注目されているが、M$3$S の課題にはほとんど注目されていない。
それに 既存の研究は主に
1)MMSを利用した知識蒸留によるMXLSの高度化,又はMMSの性能を考慮せずに
2) 要約非関連視覚特徴を暗黙的な学習, 明示的な複雑な訓練目的でフィルタリングすることにより, MMSモデルを改善する。
本稿では,まず,m$^3$sという汎用的かつ実用的な課題について述べる。
さらに, m$^3$sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。
具体的には、二重知識蒸留法は、MMSとMXLSの知識を相互に伝達できることを保証し、両者を相互に促進する。
目標指向の視覚機能を提供するため、単純で効果的な目標指向の対比目的が設計され、不要な視覚情報を破棄する責任がある。
多対多設定に関する広範囲な実験により,提案手法の有効性が示された。
さらに、多対多のマルチモーダル要約(m$^3$sum)データセットも提供します。
関連論文リスト
- M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment [0.0]
本稿では,認知負荷評価のためのAVCAffeデータセットに適用した,新しいマルチモーダルマルチタスク学習フレームワークであるM&Mモデルを提案する。
M&Mは、オーディオとビデオの入力のための特別なストリームを特徴とする、デュアル・パスウェイ・アーキテクチャを通じてオーディオヴィジュアル・キューを独自に統合する。
重要な革新は多面的マルチヘッドアテンション機構であり、同期マルチタスクの異なるモダリティを融合させる。
論文 参考訳(メタデータ) (2024-03-14T14:49:40Z) - LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
本稿では,大規模言語モデルとタスク固有のトークンを結合したモータリティタスク統合のための統合フレームワークを提案する。
私たちのフレームワークは、他のモダリティタスクに容易に拡張することができ、統合AIエージェントを作成する有望な可能性を示している。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - Generative Multimodal Models are In-Context Learners [62.31022638619485]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Towards Unifying Multi-Lingual and Cross-Lingual Summarization [43.89340385650822]
我々は多言語要約(MLS)と多言語要約(CLS)をより一般的な設定、すなわち多対多要約(M2MS)に統一することを目指している。
M2MS への第一歩として,M2MS が MLS や CLS よりも多言語でタスク知識を伝達できることを示す予備的研究を行った。
本稿では,3段階の事前学習を通して言語モデリング,言語横断能力,要約能力を学ぶ,事前学習型M2MSモデルであるPiscesを提案する。
論文 参考訳(メタデータ) (2023-05-16T06:53:21Z) - Summary-Oriented Vision Modeling for Multimodal Abstractive
Summarization [63.320005222549646]
マルチモーダル抽象要約(MAS)は、マルチモーダルデータ(テキストとビジョン)から簡潔な要約を作成することを目的としている。
本稿では,要約指向の視覚的特徴によって要約品質を改善することを提案する。
中高、低低、ゼロリソースのシナリオをカバーする44言語の実験は、提案手法の有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-12-15T09:05:26Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。