論文の概要: LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich
Document Understanding
- arxiv url: http://arxiv.org/abs/2104.08836v1
- Date: Sun, 18 Apr 2021 12:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:05:14.668093
- Title: LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich
Document Understanding
- Title(参考訳): layoutxlm: 多言語視覚リッチ文書理解のためのマルチモーダル事前学習
- Authors: Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei
Florencio, Cha Zhang, Furu Wei
- Abstract要約: テキスト、レイアウト、画像によるマルチモーダル事前学習は、視覚的にリッチな文書理解タスクのためのSOTA性能を達成している。
視覚的に豊富な文書理解のための言語障壁を橋渡しすることを目的とした多言語文書理解のためのマルチモーダル事前訓練モデルを提示する。
- 参考スコア(独自算出の注目度): 34.42574051786547
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal pre-training with text, layout, and image has achieved SOTA
performance for visually-rich document understanding tasks recently, which
demonstrates the great potential for joint learning across different
modalities. In this paper, we present LayoutXLM, a multimodal pre-trained model
for multilingual document understanding, which aims to bridge the language
barriers for visually-rich document understanding. To accurately evaluate
LayoutXLM, we also introduce a multilingual form understanding benchmark
dataset named XFUN, which includes form understanding samples in 7 languages
(Chinese, Japanese, Spanish, French, Italian, German, Portuguese), and
key-value pairs are manually labeled for each language. Experiment results show
that the LayoutXLM model has significantly outperformed the existing SOTA
cross-lingual pre-trained models on the XFUN dataset. The pre-trained LayoutXLM
model and the XFUN dataset will be publicly available at
https://aka.ms/layoutxlm.
- Abstract(参考訳): テキスト,レイアウト,画像によるマルチモーダル事前学習は,近年,視覚的に豊富な文書理解タスクにおいてSOTA性能を達成している。
本稿では,多言語文書理解のためのマルチモーダル事前学習モデルであるLayoutXLMについて述べる。
layoutxlmを正確に評価するために,7言語(中国語,日本語,スペイン語,フランス語,イタリア語,ドイツ語,ポルトガル語)のフォーム理解サンプルを含むxfunというマルチリンガルフォーム理解ベンチマークデータセットと,キー値ペアを手作業で各言語にラベル付けする。
実験の結果, レイアウトXLMモデルは, XFUNデータセット上の既存のSOTA言語間事前学習モデルよりも大幅に優れていた。
トレーニング済みのLayoutXLMモデルとXFUNデータセットはhttps://aka.ms/layoutxlm.orgで公開される。
関連論文リスト
- SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文 参考訳(メタデータ) (2024-02-08T18:59:48Z) - Meta-learning For Vision-and-language Cross-lingual Transfer [14.594704809280984]
バイソン言語モデルのための新しいメタラーニング微調整フレームワークを提案する。
我々のフレームワークは、現在のPVLMを視覚言語シナリオにおける新しい言語に迅速に適応させる。
本手法は, ゼロショットと少数ショットのクロスランガル転送において, 現在のPVLMの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-24T07:51:42Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。