論文の概要: Graph Algorithms for Multiparallel Word Alignment
- arxiv url: http://arxiv.org/abs/2109.06283v1
- Date: Mon, 13 Sep 2021 19:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:43:06.584615
- Title: Graph Algorithms for Multiparallel Word Alignment
- Title(参考訳): マルチパラレル単語アライメントのためのグラフアルゴリズム
- Authors: Ayyoob Imani, Masoud Jalili Sabet, L\"utfi Kerem \c{S}enel, Philipp
Dufter, Fran\c{c}ois Yvon, Hinrich Sch\"utze
- Abstract要約: 本研究では,最初のバイリンガルアライメントの集合をグラフとして表現することにより,コーパスの多重並列性を利用する。
エッジ予測のためのグラフアルゴリズムを2つ提案する。1つは推薦システムにインスパイアされたもので、もう1つはネットワークリンク予測に基づくものである。
- 参考スコア(独自算出の注目度): 2.5200727733264663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of end-to-end deep learning approaches in machine
translation, interest in word alignments initially decreased; however, they
have again become a focus of research more recently. Alignments are useful for
typological research, transferring formatting like markup to translated texts,
and can be used in the decoding of machine translation systems. At the same
time, massively multilingual processing is becoming an important NLP scenario,
and pretrained language and machine translation models that are truly
multilingual are proposed. However, most alignment algorithms rely on bitexts
only and do not leverage the fact that many parallel corpora are multiparallel.
In this work, we exploit the multiparallelity of corpora by representing an
initial set of bilingual alignments as a graph and then predicting additional
edges in the graph. We present two graph algorithms for edge prediction: one
inspired by recommender systems and one based on network link prediction. Our
experimental results show absolute improvements in $F_1$ of up to 28% over the
baseline bilingual word aligner in different datasets.
- Abstract(参考訳): 機械翻訳におけるエンド・ツー・エンドのディープラーニングアプローチの出現に伴い、単語アライメントへの関心は当初減少していたが、近年では再び研究の焦点となっている。
アライメントは、マークアップのようなフォーマットを翻訳されたテキストに転送するタイプ研究に有用であり、機械翻訳システムの復号に使用できる。
同時に、膨大な多言語処理が重要なNLPシナリオとなり、真に多言語である事前学習言語と機械翻訳モデルが提案されている。
しかし、ほとんどのアライメントアルゴリズムはbitextsのみに依存しており、多くの並列コーパスが多重並列であるという事実を生かしていない。
本研究では,初期二言語アライメントの集合をグラフとして表現し,グラフ内の追加エッジを予測することによって,コーパスの多重並列性を利用する。
エッジ予測のための2つのグラフアルゴリズムを提案する。1つはレコメンダシステムに触発され、もう1つはネットワークリンク予測に基づいている。
実験の結果,異なるデータセットのベースラインバイリンガル単語整合器よりもF_1$の最大28%の絶対的な改善が得られた。
関連論文リスト
- How Transliterations Improve Crosslingual Alignment [48.929677368744606]
近年の研究では、アライメント目的を用いた多言語事前学習言語モデル(mPLM)が言語横断アライメントを改善することが示されている。
本稿では, 言語間のアライメントを明示的に評価し, 翻訳に基づくアプローチにおける重要な要素を同定し, 性能向上に寄与する。
論文 参考訳(メタデータ) (2024-09-25T20:05:45Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Graph Neural Networks for Multiparallel Word Alignment [0.27998963147546146]
我々は、複数の言語ペア間の高品質な単語アライメントを、すべての言語ペアを一緒に考えることによって計算する。
グラフ構造を利用するためにグラフニューラルネットワーク(GNN)を用いる。
提案手法は,3つの単語アライメントデータセットと下流タスクにおいて,過去の作業よりも優れていた。
論文 参考訳(メタデータ) (2022-03-16T14:41:35Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Do Explicit Alignments Robustly Improve Multilingual Encoders? [22.954688396858085]
多言語エンコーダは、言語間表現を効果的に学習することができる。
EuroparlやMultiUNのようなbitextsに基づく明示的なアライメント目的は、これらの表現をさらに改善することが示されている。
このような信号をよりよく活用できる新しいコントラストアライメント目的を提案する。
論文 参考訳(メタデータ) (2020-10-06T07:43:17Z) - Bilingual Text Extraction as Reading Comprehension [23.475200800530306]
本稿では,トークンレベルのスパン予測として,ノイズの多い並列コーパスからバイリンガルテキストを自動的に抽出する手法を提案する。
与えられたソース文(スパン)の翻訳である対象文書のスパンを抽出するために、QANetまたは多言語BERTを使用する。
論文 参考訳(メタデータ) (2020-04-29T23:41:32Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。