Fugu-MT 論文翻訳(概要): LDP: Generalizing to Multilingual Visual Information Extraction by Language Decoupled Pretraining

論文の概要: LDP: Generalizing to Multilingual Visual Information Extraction by Language Decoupled Pretraining

arxiv url: http://arxiv.org/abs/2412.14596v1
Date: Thu, 19 Dec 2024 07:31:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.03941
Title: LDP: Generalizing to Multilingual Visual Information Extraction by Language Decoupled Pretraining
Title（参考訳）: LDP:言語分離事前学習による多言語視覚情報抽出への一般化
Authors: Huawen Shen, Gengluo Li, Jinwen Zhong, Yu Zhou,
Abstract要約: 単言語事前学習データをよりよく活用するための多言語学習パラダイム LDP (Language Decoupled Pre-training) を提案する。提案したモデル LDM はまず言語に依存しないデータに基づいて事前訓練され,言語知識は拡散モデルによって分離され,次に下流言語で微調整される。
参考スコア（独自算出の注目度）: 2.6638517946494535
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Information Extraction (VIE) plays a crucial role in the comprehension of semi-structured documents, and several pre-trained models have been developed to enhance performance. However, most of these works are monolingual (usually English). Due to the extremely unbalanced quantity and quality of pre-training corpora between English and other languages, few works can extend to non-English scenarios. In this paper, we conduct systematic experiments to show that vision and layout modality hold invariance among images with different languages. If decoupling language bias from document images, a vision-layout-based model can achieve impressive cross-lingual generalization. Accordingly, we present a simple but effective multilingual training paradigm LDP (Language Decoupled Pre-training) for better utilization of monolingual pre-training data. Our proposed model LDM (Language Decoupled Model) is first pre-trained on the language-independent data, where the language knowledge is decoupled by a diffusion model, and then the LDM is fine-tuned on the downstream languages. Extensive experiments show that the LDM outperformed all SOTA multilingual pre-trained models, and also maintains competitiveness on downstream monolingual/English benchmarks.
Abstract（参考訳）: ビジュアル情報抽出(VIE)は、半構造化文書の理解において重要な役割を担い、性能を高めるためにいくつかの事前学習モデルが開発されている。しかし、これらの作品のほとんどは単言語(通常は英語)である。英語と他の言語の間の事前学習コーパスの量と質が極めて不均衡であるため、英語以外のシナリオにまで拡張できる作品はほとんどない。本稿では,視覚とレイアウトのモダリティが異なる言語による画像間の不変性を持つことを示すために,系統的な実験を行う。文書画像から言語バイアスを分離すると、視覚レイアウトに基づくモデルは印象的な言語間一般化を実現することができる。そこで本研究では,単言語事前学習データをより活用するための,単純かつ効果的な多言語学習パラダイム LDP (Language Decoupled Pre-training) を提案する。提案するLanguage Decoupled Model(Language Decoupled Model)は,まず言語に依存しないデータに基づいて事前学習を行い,言語知識を拡散モデルで分離し,下流言語で微調整する。大規模な実験により、LDMはSOTAの多言語事前学習モデルよりも優れており、下流の単言語/英語ベンチマークでの競争性も維持されている。

関連論文リスト

Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-07-02T12:17:55Z)
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models [17.444066202370397]
言語間移動により、視覚言語モデルは1つの言語でのみトレーニングデータを用いて様々な言語で視覚タスクを実行することができる。現在のアプローチは、大規模で訓練済みの多言語言語モデルに依存している。本稿では,事前学習したVLM Florence-2と大規模言語モデルGemma-2を組み合わせた,0.4Bから11.2Bの単一言語エンコーダVLMであるFlorenzを提案する。
論文参考訳（メタデータ） (2025-03-12T14:41:10Z)
PreAlign: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment [68.20851615263953]
大規模な言語モデルは、英語中心の事前訓練にもかかわらず、合理的な多言語能力を示す。これらのモデルにおける自発的な多言語アライメントは弱く、不満足な言語間移動と知識共有をもたらす。言語モデル事前学習に先立って多言語アライメントを確立するフレームワークであるPreAlignを提案する。
論文参考訳（メタデータ） (2024-07-23T06:59:53Z)
A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文参考訳（メタデータ） (2024-07-22T09:16:30Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
Sabi\'a: Portuguese Large Language Models [14.801853435122908]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文参考訳（メタデータ） (2023-04-16T20:11:19Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)
MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文参考訳（メタデータ） (2021-06-05T08:22:05Z)
Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文参考訳（メタデータ） (2020-10-21T17:01:23Z)
InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。コントラスト学習に基づく新しい事前学習課題を提案する。単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文参考訳（メタデータ） (2020-07-15T16:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。