論文の概要: Graph Neural Networks for Multiparallel Word Alignment
- arxiv url: http://arxiv.org/abs/2203.08654v1
- Date: Wed, 16 Mar 2022 14:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:53:19.523700
- Title: Graph Neural Networks for Multiparallel Word Alignment
- Title(参考訳): マルチパラレル単語アライメントのためのグラフニューラルネットワーク
- Authors: Ayyoob Imani, L\"utfi Kerem \c{S}enel, Masoud Jalili Sabet,
Fran\c{c}ois Yvon, Hinrich Sch\"utze
- Abstract要約: 我々は、複数の言語ペア間の高品質な単語アライメントを、すべての言語ペアを一緒に考えることによって計算する。
グラフ構造を利用するためにグラフニューラルネットワーク(GNN)を用いる。
提案手法は,3つの単語アライメントデータセットと下流タスクにおいて,過去の作業よりも優れていた。
- 参考スコア(独自算出の注目度): 0.27998963147546146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After a period of decrease, interest in word alignments is increasing again
for their usefulness in domains such as typological research, cross-lingual
annotation projection, and machine translation. Generally, alignment algorithms
only use bitext and do not make use of the fact that many parallel corpora are
multiparallel. Here, we compute high-quality word alignments between multiple
language pairs by considering all language pairs together. First, we create a
multiparallel word alignment graph, joining all bilingual word alignment pairs
in one graph. Next, we use graph neural networks (GNNs) to exploit the graph
structure. Our GNN approach (i) utilizes information about the meaning,
position, and language of the input words, (ii) incorporates information from
multiple parallel sentences, (iii) adds and removes edges from the initial
alignments, and (iv) yields a prediction model that can generalize beyond the
training sentences. We show that community detection provides valuable
information for multiparallel word alignment. Our method outperforms previous
work on three word-alignment datasets and on a downstream task.
- Abstract(参考訳): 単語のアライメントに対する関心は, 類型研究, 言語間アノテーション投影, 機械翻訳などの分野において, 再び高まりつつある。
一般に、アライメントアルゴリズムはbitextのみを使用し、多くの並列コーパスが多重並列であるという事実を利用しない。
本稿では,複数の言語ペア間の高品質な単語アライメントを計算する。
まず、複数の単語アライメントグラフを作成し、すべての単語アライメントペアを1つのグラフに結合する。
次に、グラフ構造を利用するためにグラフニューラルネットワーク(GNN)を用いる。
我々のGNNアプローチ
(i)入力語の意味、位置、言語に関する情報を利用する。
(ii)複数の並行文からの情報を含む。
(iii)最初のアライメントからエッジを追加・削除し、
(iv)訓練文を超えて一般化できる予測モデルを得る。
コミュニティ検出は,マルチパラレル単語アライメントに有用な情報を提供する。
提案手法は,3つのワードアレーメントデータセットと下流タスクにおける従来の作業よりも優れている。
関連論文リスト
- Third-Party Aligner for Neural Word Alignments [18.745852103348845]
本稿では,ニューラルネットワークによる単語アライメントトレーニングの監督のために,サードパーティ製単語アライメント器によって生成された単語アライメントを提案する。
実験により、我々のアプローチは第三者の監督に対して驚くほど自己補正が可能であることが示された。
我々は最先端の単語アライメント性能を達成し、最高のサードパーティアライメントよりも平均2ポイント以上低いアライメント誤り率を持つ。
論文 参考訳(メタデータ) (2022-11-08T12:30:08Z) - Graph Algorithms for Multiparallel Word Alignment [2.5200727733264663]
本研究では,最初のバイリンガルアライメントの集合をグラフとして表現することにより,コーパスの多重並列性を利用する。
エッジ予測のためのグラフアルゴリズムを2つ提案する。1つは推薦システムにインスパイアされたもので、もう1つはネットワークリンク予測に基づくものである。
論文 参考訳(メタデータ) (2021-09-13T19:40:29Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Graph Optimal Transport for Cross-Domain Alignment [121.80313648519203]
クロスドメインアライメントはコンピュータビジョンと自然言語処理の基本である。
我々は、最近の最適輸送(OT)の進歩から発芽する原則的なフレームワークであるグラフ最適輸送(GOT)を提案する。
実験は、幅広いタスクにわたるベースライン上でのGOTの一貫性のある性能を示す。
論文 参考訳(メタデータ) (2020-06-26T01:14:23Z) - Filtered Inner Product Projection for Crosslingual Embedding Alignment [28.72288652451881]
フィルタ内積投影(FIPP)は、埋め込みを共通表現空間にマッピングする手法である。
FIPPは、ソースとターゲットの埋め込みが異なる次元である場合でも適用可能である。
提案手法は,MUSEデータセット上の既存の手法よりも,様々な言語ペアに対して優れていることを示す。
論文 参考訳(メタデータ) (2020-06-05T19:53:30Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。