論文の概要: Third-Party Aligner for Neural Word Alignments
- arxiv url: http://arxiv.org/abs/2211.04198v1
- Date: Tue, 8 Nov 2022 12:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 16:10:56.574723
- Title: Third-Party Aligner for Neural Word Alignments
- Title(参考訳): ニューラルワードアライメントのためのサードパーティライナー
- Authors: Jinpeng Zhang, Chuanqi Dong, Xiangyu Duan, Yuqi Zhang, Min Zhang
- Abstract要約: 本稿では,ニューラルネットワークによる単語アライメントトレーニングの監督のために,サードパーティ製単語アライメント器によって生成された単語アライメントを提案する。
実験により、我々のアプローチは第三者の監督に対して驚くほど自己補正が可能であることが示された。
我々は最先端の単語アライメント性能を達成し、最高のサードパーティアライメントよりも平均2ポイント以上低いアライメント誤り率を持つ。
- 参考スコア(独自算出の注目度): 18.745852103348845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word alignment is to find translationally equivalent words between source and
target sentences. Previous work has demonstrated that self-training can achieve
competitive word alignment results. In this paper, we propose to use word
alignments generated by a third-party word aligner to supervise the neural word
alignment training. Specifically, source word and target word of each word pair
aligned by the third-party aligner are trained to be close neighbors to each
other in the contextualized embedding space when fine-tuning a pre-trained
cross-lingual language model. Experiments on the benchmarks of various language
pairs show that our approach can surprisingly do self-correction over the
third-party supervision by finding more accurate word alignments and deleting
wrong word alignments, leading to better performance than various third-party
word aligners, including the currently best one. When we integrate all
supervisions from various third-party aligners, we achieve state-of-the-art
word alignment performances, with averagely more than two points lower
alignment error rates than the best third-party aligner. We released our code
at https://github.com/sdongchuanqi/Third-Party-Supervised-Aligner.
- Abstract(参考訳): 単語アライメントは、ソース文とターゲット文の間の翻訳等価な単語を見つけることである。
前回の研究では、自己学習が競争的な単語アライメント結果を達成できることが示されている。
本稿では,ニューラルネットワークによる単語アライメントトレーニングの監督のために,サードパーティ製単語アライメント器によって生成された単語アライメントを提案する。
具体的には、事前訓練された言語モデルの微調整を行う際に、サードパーティの整列器で整列された各単語対のソース語とターゲット語を文脈化された埋め込み空間において互いに近接するように訓練する。
様々な言語ペアのベンチマーク実験により、より正確な単語アライメントを見つけ、間違った単語アライメントを削除することで、我々のアプローチが驚くほどサードパーティの監督に対して自己補正可能であることが示される。
各種サードパーティコーディネータのすべての監視を統合すると、最先端のワードアライメント性能が得られ、最も優れたサードパーティコーディネータよりも平均2ポイント低いアライメントエラー率が得られる。
私たちはhttps://github.com/sdongchuanqi/Third-Party-Supervised-Alignerでコードを公開しました。
関連論文リスト
- How Transliterations Improve Crosslingual Alignment [48.929677368744606]
近年の研究では、アライメント目的を用いた多言語事前学習言語モデル(mPLM)が言語横断アライメントを改善することが示されている。
本稿では, 言語間のアライメントを明示的に評価し, 翻訳に基づくアプローチにおける重要な要素を同定し, 性能向上に寄与する。
論文 参考訳(メタデータ) (2024-09-25T20:05:45Z) - Unbalanced Optimal Transport for Unbalanced Word Alignment [17.08341136230076]
本研究は, 最適輸送(OT)ファミリー, すなわち, バランス, 部分, バランスの取れないOTは, テーラーメイド技術がなくても, 自然かつ強力なアプローチであることを示す。
教師なしおよび教師なしの設定に関する実験は,単語アライメントに特化して設計された最先端技術に対して,汎用的なOTベースのアライメント手法が競合していることを示す。
論文 参考訳(メタデータ) (2023-06-07T03:03:41Z) - Graph Neural Networks for Multiparallel Word Alignment [0.27998963147546146]
我々は、複数の言語ペア間の高品質な単語アライメントを、すべての言語ペアを一緒に考えることによって計算する。
グラフ構造を利用するためにグラフニューラルネットワーク(GNN)を用いる。
提案手法は,3つの単語アライメントデータセットと下流タスクにおいて,過去の作業よりも優れていた。
論文 参考訳(メタデータ) (2022-03-16T14:41:35Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Using Optimal Transport as Alignment Objective for fine-tuning
Multilingual Contextualized Embeddings [7.026476782041066]
我々は,マルチリンガルな文脈化表現を改善するために,微調整時のアライメント目的として最適輸送(OT)を提案する。
このアプローチでは、微調整の前に単語アライメントペアを必要とせず、教師なしの方法で文脈内の単語アライメントを学習する。
論文 参考訳(メタデータ) (2021-10-06T16:13:45Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Mask-Align: Self-Supervised Neural Word Alignment [47.016975106231875]
Mask-Alignは、単語アライメントタスク用に特別に設計された自己監督モデルです。
我々のモデルでは,各トークンを並列にマスクし,予測し,教師付き損失を伴わずに高品質なアライメントを抽出する。
論文 参考訳(メタデータ) (2020-12-13T21:44:29Z) - A Supervised Word Alignment Method based on Cross-Language Span
Prediction using Multilingual BERT [22.701728185474195]
まず、単語アライメント問題を、原文のトークンから対象文のスパンへの独立予測の集合として定式化する。
次に、手作業で作成したゴールドワードアライメントデータに基づいて微調整された多言語BERTを用いて、この問題を解決する。
提案手法は,事前学習にビットクストを用いることなく,従来の教師付き単語アライメント法と教師なし単語アライメント法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-04-29T23:40:08Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。