論文の概要: Subword Sampling for Low Resource Word Alignment
- arxiv url: http://arxiv.org/abs/2012.11657v1
- Date: Mon, 21 Dec 2020 19:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:37:30.806674
- Title: Subword Sampling for Low Resource Word Alignment
- Title(参考訳): 低資源単語アライメントのためのサブワードサンプリング
- Authors: Ehsaneddin Asgari and Masoud Jalili Sabet and Philipp Dufter and
Christopher Ringlstetter and Hinrich Sch\"utze
- Abstract要約: テキスト単位のサブワードサンプリングに基づくアライメントを提案する。
サブワードサンプリング法が6つの言語ペアの単語レベルアライメントを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 4.663577299263155
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Annotation projection is an important area in NLP that can greatly contribute
to creating language resources for low-resource languages. Word alignment plays
a key role in this setting. However, most of the existing word alignment
methods are designed for a high resource setting in machine translation where
millions of parallel sentences are available. This amount reduces to a few
thousands of sentences when dealing with low-resource languages failing the
existing established IBM models. In this paper, we propose subword
sampling-based alignment of text units. This method's hypothesis is that the
aggregation of different granularities of text for certain language pairs can
help word-level alignment. For certain languages for which gold-standard
alignments exist, we propose an iterative Bayesian optimization framework to
optimize selecting possible subwords from the space of possible subword
representations of the source and target sentences. We show that the subword
sampling method consistently outperforms word-level alignment on six language
pairs: English-German, English-French, English-Romanian, English-Persian,
English-Hindi, and English-Inuktitut. In addition, we show that the
hyperparameters learned for certain language pairs can be applied to other
languages at no supervision and consistently improve the alignment results. We
observe that using $5K$ parallel sentences together with our proposed subword
sampling approach, we obtain similar F1 scores to the use of $100K$'s of
parallel sentences in existing word-level fast-align/eflomal alignment methods.
- Abstract(参考訳): アノテーションプロジェクションは、低リソース言語のための言語リソースの作成に大きく貢献できる、NLPの重要な領域である。
この設定では単語アライメントが重要な役割を果たす。
しかし、既存の単語アライメント手法のほとんどは、数百万の並列文が利用可能な機械翻訳における高リソース設定のために設計されている。
この金額は、既存のIBMモデルに失敗した低リソース言語を扱う場合、数千の文に減少する。
本稿では,テキスト単位のサブワードサンプリングに基づくアライメントを提案する。
この手法の仮説は、特定の言語対に対する異なる粒度のテキストの集合が単語レベルのアライメントに役立つというものである。
金標準アライメントが存在する特定の言語に対して、ソースとターゲット文のサブワード表現の空間から可能なサブワードの選択を最適化する反復ベイズ最適化フレームワークを提案する。
本手法は,英語-ドイツ語,英語-フランス語,英語-ルーマニア語,英語-ペルシャ語,英語-ヒンディー語,英語-イヌクティトゥット語の6つの言語対における単語レベルのアライメントを一貫して上回ることを示す。
さらに,特定の言語ペアで学習したハイパーパラメータを,無監督で他の言語に適用でき,一貫性を持ってアライメント結果が向上することを示す。
5k$の並列文と,提案する副単語サンプリング手法を用いて,既存の単語レベルの高速アラインメント法における1k$の並列文を用いて,類似のf1スコアを得る。
関連論文リスト
- Multilingual Sentence Transformer as A Multilingual Word Aligner [15.689680887384847]
多言語文 Transformer LaBSE が強い多言語単語アライメント器であるかどうかを検討する。
7つの言語対の実験結果から、最も優れたコーディネータは、すべての品種の過去の最先端モデルよりも優れていることが示された。
コーディネータは1つのモデルで異なる言語ペアをサポートし、ファインタニングプロセスに現れないゼロショット言語ペア上で新しい最先端の言語ペアを実現する。
論文 参考訳(メタデータ) (2023-01-28T09:28:55Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Using Optimal Transport as Alignment Objective for fine-tuning
Multilingual Contextualized Embeddings [7.026476782041066]
我々は,マルチリンガルな文脈化表現を改善するために,微調整時のアライメント目的として最適輸送(OT)を提案する。
このアプローチでは、微調整の前に単語アライメントペアを必要とせず、教師なしの方法で文脈内の単語アライメントを学習する。
論文 参考訳(メタデータ) (2021-10-06T16:13:45Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - A Supervised Word Alignment Method based on Cross-Language Span
Prediction using Multilingual BERT [22.701728185474195]
まず、単語アライメント問題を、原文のトークンから対象文のスパンへの独立予測の集合として定式化する。
次に、手作業で作成したゴールドワードアライメントデータに基づいて微調整された多言語BERTを用いて、この問題を解決する。
提案手法は,事前学習にビットクストを用いることなく,従来の教師付き単語アライメント法と教師なし単語アライメント法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-04-29T23:40:08Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。