論文の概要: Constrained Density Matching and Modeling for Cross-lingual Alignment of
Contextualized Representations
- arxiv url: http://arxiv.org/abs/2201.13429v1
- Date: Mon, 31 Jan 2022 18:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 16:26:42.774145
- Title: Constrained Density Matching and Modeling for Cross-lingual Alignment of
Contextualized Representations
- Title(参考訳): 文脈表現の言語間アライメントのための制約付き密度マッチングとモデリング
- Authors: Wei Zhao, Steffen Eger
- Abstract要約: 我々は,正規化フローによって駆動されるReal-NVPとGAN-Real-NVPという,教師付きおよび教師なしの密度ベースアプローチを導入し,アライメントを行う。
実験では、6つの言語対、合成データ、4つのNLPタスクで評価された16のアライメントについて検討した。
- 参考スコア(独自算出の注目度): 27.74320705109685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual representations pre-trained with monolingual data exhibit
considerably unequal task performances across languages. Previous studies
address this challenge with resource-intensive contextualized alignment, which
assumes the availability of large parallel data, thereby leaving
under-represented language communities behind. In this work, we attribute the
data hungriness of previous alignment techniques to two limitations: (i) the
inability to sufficiently leverage data and (ii) these techniques are not
trained properly. To address these issues, we introduce supervised and
unsupervised density-based approaches named Real-NVP and GAN-Real-NVP, driven
by Normalizing Flow, to perform alignment, both dissecting the alignment of
multilingual subspaces into density matching and density modeling. We
complement these approaches with our validation criteria in order to guide the
training process. Our experiments encompass 16 alignments, including our
approaches, evaluated across 6 language pairs, synthetic data and 4 NLP tasks.
We demonstrate the effectiveness of our approaches in the scenarios of limited
and no parallel data. First, our supervised approach trained on 20k parallel
data mostly surpasses Joint-Align and InfoXLM trained on much larger parallel
data. Second, parallel data can be removed without sacrificing performance when
integrating our unsupervised approach in our bootstrapping procedure, which is
theoretically motivated to enforce equality of multilingual subspaces.
Moreover, we demonstrate the advantages of validation criteria over validation
data for guiding supervised training. Our code is available at
\url{https://github.com/AIPHES/Real-NVP}.
- Abstract(参考訳): 単言語データで事前学習された多言語表現は、言語間でかなりの不平等なタスクパフォーマンスを示す。
以前の研究では、大規模な並列データの可用性を前提としたリソース集約型コンテキストアライメントによって、この課題に対処している。
本研究では,従来のアライメント手法のデータ空腹を2つの制約に分類する。
(i)データを十分に活用できないこと、及び
(二)これらの技法は正しく訓練されていない。
これらの問題に対処するために,実nvpおよびgan-real-nvpと呼ばれる教師付きおよび教師なし密度ベースアプローチを導入し,多言語部分空間のアライメントを密度マッチングと密度モデリングに分解してアライメントを行う。
トレーニングプロセスの指針として,これらのアプローチを検証基準で補完する。
提案手法を含む16のアライメントを6つの言語ペア,合成データ,4つのnlpタスクで評価した。
並列データの制限のないシナリオにおいて、我々のアプローチの有効性を実証する。
第一に,20k並列データでトレーニングされた教師付きアプローチは,より大きな並列データでトレーニングされたジョイントアラングおよびインフォックスlmをほとんど上回っている。
第2に,マルチリンガル部分空間の等しさを強制する理論上の動機付けであるブートストラップ手順に教師なしアプローチを統合する際に,並列データを犠牲にすることなく除去することができる。
さらに,教師あり学習指導のための検証データに対する検証基準の利点を示す。
私たちのコードは \url{https://github.com/AIPHES/Real-NVP} で利用可能です。
関連論文リスト
- Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data [13.587157318352869]
本稿では,並列データに対して,事前学習された大規模言語モデルを継続的に事前学習する2相学習手法を提案する。
日本語と英語と日本語の13種類のテストセットを用いて,これらの手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:23:36Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - On the Role of Parallel Data in Cross-lingual Transfer Learning [30.737717433111776]
本稿では, 教師なし機械翻訳を用いて合成並列データを生成する方法について検討する。
モデルが生成した並列データでさえ、下流のタスクに役立ちます。
以上の結果から,既存の多言語モデルではモノリンガルデータの潜在能力を活用できないことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T11:23:04Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。