論文の概要: Large Scale Multi-Lingual Multi-Modal Summarization Dataset
- arxiv url: http://arxiv.org/abs/2302.06560v1
- Date: Mon, 13 Feb 2023 18:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 14:36:40.983164
- Title: Large Scale Multi-Lingual Multi-Modal Summarization Dataset
- Title(参考訳): 大規模マルチLingual Multi-Modal Summarization データセット
- Authors: Yash Verma, Anubhav Jangra, Raghvendra Kumar, Sriparna Saha
- Abstract要約: 現在最大の多言語マルチモーダル要約データセット(M3LS)を提示する。
それは100万以上のドキュメントイメージペアのインスタンスと、それぞれに専門的な注釈付きマルチモーダル要約で構成されています。
また、13言語に対する最大の要約データセットであり、2言語に対する言語間要約データで構成されている。
- 参考スコア(独自算出の注目度): 26.92121230628835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Significant developments in techniques such as encoder-decoder models have
enabled us to represent information comprising multiple modalities. This
information can further enhance many downstream tasks in the field of
information retrieval and natural language processing; however, improvements in
multi-modal techniques and their performance evaluation require large-scale
multi-modal data which offers sufficient diversity. Multi-lingual modeling for
a variety of tasks like multi-modal summarization, text generation, and
translation leverages information derived from high-quality multi-lingual
annotated data. In this work, we present the current largest multi-lingual
multi-modal summarization dataset (M3LS), and it consists of over a million
instances of document-image pairs along with a professionally annotated
multi-modal summary for each pair. It is derived from news articles published
by British Broadcasting Corporation(BBC) over a decade and spans 20 languages,
targeting diversity across five language roots, it is also the largest
summarization dataset for 13 languages and consists of cross-lingual
summarization data for 2 languages. We formally define the multi-lingual
multi-modal summarization task utilizing our dataset and report baseline scores
from various state-of-the-art summarization techniques in a multi-lingual
setting. We also compare it with many similar datasets to analyze the
uniqueness and difficulty of M3LS.
- Abstract(参考訳): エンコーダ・デコーダモデルなどの技術の発展により、複数のモダリティを含む情報を表現できるようになった。
この情報は情報検索や自然言語処理の分野で下流のタスクを更に強化することができるが、マルチモーダル技術の改善と性能評価には十分な多様性を持つ大規模マルチモーダルデータが必要である。
マルチモーダル要約、テキスト生成、翻訳など様々なタスクのためのマルチリンガルモデリングは、高品質のマルチリンガルアノテートデータからの情報を活用する。
本稿では,現在最大の多言語マルチモーダル要約データセット(M3LS)について述べる。
英放送協会(BBC)が10年以上にわたって発行したニュース記事から派生したもので、20言語にまたがる5言語にまたがる多様性を目標としており、13言語で最大の要約データセットであり、2言語の言語間要約データで構成されている。
本研究は,多言語における多言語多モーダル要約タスクを形式的に定義し,多言語環境での各種要約手法のベースラインスコアを報告する。
また、M3LSの特異性と難易度を分析するために、類似したデータセットと比較する。
関連論文リスト
- MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
10のモダリティで2500万枚以上の画像をカバーしており、65以上の疾患に対する多彩なアノテーションがある。
画像テキストペアの可用性によって制限された既存のアプローチとは異なり、私たちは最初の自動パイプラインを開発しました。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment [4.571088742209442]
91Kの英語-韓国-中国の多言語・マルチモーダルトレーニングデータセットを作成します。
韓国語と英語の両方で優れた性能を示すバイリンガル・マルチモーダル・モデルを開発した。
論文 参考訳(メタデータ) (2024-03-18T01:14:47Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-04T03:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。