論文の概要: Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2407.05054v1
- Date: Sat, 6 Jul 2024 11:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:18:15.703184
- Title: Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning
- Title(参考訳): コントラスト学習を伴うASEAN言語のための言語間単語アライメント
- Authors: Jingshen Zhang, Xinying Qiu, Teng Shen, Wenyu Wang, Kailin Zhang, Wenhe Feng,
- Abstract要約: 言語間単語アライメントは、自然言語処理タスクにおいて重要な役割を果たす。
近年,BiLSTMを用いたエンコーダデコーダモデルを提案する。
本稿では,BiLSTMに基づくエンコーダデコーダフレームワークにコントラスト学習を取り入れることを提案する。
- 参考スコア(独自算出の注目度): 5.5119571570277826
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cross-lingual word alignment plays a crucial role in various natural language processing tasks, particularly for low-resource languages. Recent study proposes a BiLSTM-based encoder-decoder model that outperforms pre-trained language models in low-resource settings. However, their model only considers the similarity of word embedding spaces and does not explicitly model the differences between word embeddings. To address this limitation, we propose incorporating contrastive learning into the BiLSTM-based encoder-decoder framework. Our approach introduces a multi-view negative sampling strategy to learn the differences between word pairs in the shared cross-lingual embedding space. We evaluate our model on five bilingual aligned datasets spanning four ASEAN languages: Lao, Vietnamese, Thai, and Indonesian. Experimental results demonstrate that integrating contrastive learning consistently improves word alignment accuracy across all datasets, confirming the effectiveness of the proposed method in low-resource scenarios. We will release our data set and code to support future research on ASEAN or more low-resource word alignment.
- Abstract(参考訳): 言語間単語アライメントは、特に低リソース言語において、様々な自然言語処理タスクにおいて重要な役割を果たす。
近年,BiLSTMを用いたエンコーダデコーダモデルを提案する。
しかし、それらのモデルは単語埋め込み空間の類似性のみを考慮し、単語埋め込みの違いを明示的にモデル化しない。
この制限に対処するため、BiLSTMベースのエンコーダデコーダフレームワークにコントラスト学習を導入することを提案する。
提案手法では,言語間埋め込み空間における単語対の違いを学習するために,複数視点のネガティブサンプリング戦略を導入する。
我々は,ラオス語,ベトナム語,タイ語,インドネシア語という4つのASEAN言語にまたがる5つのバイリンガルアライメントデータセットを用いて,我々のモデルを評価した。
実験結果から,コントラスト学習の統合により,すべてのデータセットにおける単語アライメント精度が向上し,低リソースシナリオにおける提案手法の有効性が確認された。
我々は、ASEANまたはより低リソースな単語アライメントに関する将来の研究を支援するために、データセットとコードをリリースします。
関連論文リスト
- A New Method for Cross-Lingual-based Semantic Role Labeling [5.992526851963307]
英語とペルシア語のセマンティック・ロール・ラベリングを訓練するためのディープラーニングアルゴリズムが提案されている。
その結果,Niksirt et al.のモデルと比較すると,有意な改善が認められた。
セマンティックロールラベリングのための言語間メソッドの開発は、約束を守る。
論文 参考訳(メタデータ) (2024-08-28T16:06:12Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - EASE: Entity-Aware Contrastive Learning of Sentence Embedding [37.7055989762122]
EASEは文とその関連エンティティ間の対照的な学習を通して文の埋め込みを学習する新しい方法である。
EASEは英語のセマンティックテキスト類似性(STS)と短いテキストクラスタリング(STC)タスクにおいて、競合的あるいはより良いパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-05-09T13:22:44Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。