Fugu-MT 論文翻訳(概要): Massively Multilingual Document Alignment with Cross-lingual Sentence-Mover's Distance

論文の概要: Massively Multilingual Document Alignment with Cross-lingual Sentence-Mover's Distance

arxiv url: http://arxiv.org/abs/2002.00761v2
Date: Sun, 11 Oct 2020 05:26:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-05 05:35:25.363715
Title: Massively Multilingual Document Alignment with Cross-lingual Sentence-Mover's Distance
Title（参考訳）: 言語間距離を用いた多言語文書アライメント
Authors: Ahmed El-Kishky, Francisco Guzm\'an
Abstract要約: ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
参考スコア（独自算出の注目度）: 8.395430195053061
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Document alignment aims to identify pairs of documents in two distinct languages that are of comparable content or translations of each other. Such aligned data can be used for a variety of NLP tasks from training cross-lingual representations to mining parallel data for machine translation. In this paper we develop an unsupervised scoring function that leverages cross-lingual sentence embeddings to compute the semantic distance between documents in different languages. These semantic distances are then used to guide a document alignment algorithm to properly pair cross-lingual web documents across a variety of low, mid, and high-resource language pairs. Recognizing that our proposed scoring function and other state of the art methods are computationally intractable for long web documents, we utilize a more tractable greedy algorithm that performs comparably. We experimentally demonstrate that our distance metric performs better alignment than current baselines outperforming them by 7% on high-resource language pairs, 15% on mid-resource language pairs, and 22% on low-resource language pairs.
Abstract（参考訳）: ドキュメントアライメントは、2つの異なる言語における文書のペアを特定することを目的としている。このようなアライメントされたデータは、言語間表現のトレーニングから機械翻訳のための並列データマイニングまで、さまざまなNLPタスクに使用できる。本稿では,言語間文埋め込みを利用した教師なしスコアリング機能を開発し,言語間文書間の意味的距離を計算する。これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。提案したスコアリング関数や他の技術手法が長いウェブ文書に対して計算的に抽出可能であることを認識して,より難解なグリージーアルゴリズムを用いて比較を行った。我々は,高リソース言語ペアでは7%,中リソース言語ペアでは15%,低リソース言語ペアでは22%,現在のベースラインよりも高いアライメントを実現することを実験的に実証した。

関連論文リスト

Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文参考訳（メタデータ） (2024-03-25T14:46:51Z)
Are the Best Multilingual Document Embeddings simply Based on Sentence Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-28T12:11:21Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
Multilingual Representation Distillation with Contrastive Learning [20.715534360712425]
コントラスト学習を多言語表現蒸留に統合し,並列文の品質評価に利用する。我々は,多言語類似性探索とコーパスフィルタリングタスクによるアプローチの有効性を検証した。
論文参考訳（メタデータ） (2022-10-10T22:27:04Z)
Cross-lingual Text Classification with Heterogeneous Graph Neural Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2021-05-24T12:45:42Z)
CDA: a Cost Efficient Content-based Multilingual Web Document Aligner [97.98885151955467]
多言語のWebドキュメントをコンテンツに基づいて整列させる、Content-based Document Alignmentアプローチを紹介します。我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。実験によると、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。
論文参考訳（メタデータ） (2021-02-20T03:37:23Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)
Bilingual Text Extraction as Reading Comprehension [23.475200800530306]
本稿では,トークンレベルのスパン予測として,ノイズの多い並列コーパスからバイリンガルテキストを自動的に抽出する手法を提案する。与えられたソース文(スパン)の翻訳である対象文書のスパンを抽出するために、QANetまたは多言語BERTを使用する。
論文参考訳（メタデータ） (2020-04-29T23:41:32Z)
On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文参考訳（メタデータ） (2020-04-09T19:50:32Z)
Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文参考訳（メタデータ） (2019-12-28T16:18:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。