論文の概要: xSIM++: An Improved Proxy to Bitext Mining Performance for Low-Resource
Languages
- arxiv url: http://arxiv.org/abs/2306.12907v1
- Date: Thu, 22 Jun 2023 14:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 14:27:31.859728
- Title: xSIM++: An Improved Proxy to Bitext Mining Performance for Low-Resource
Languages
- Title(参考訳): xsim++:低リソース言語のためのバイテキストマイニングパフォーマンス向上のためのプロキシ
- Authors: Mingda Chen, Kevin Heffernan, Onur \c{C}elebi, Alex Mourachko, Holger
Schwenk
- Abstract要約: 複数言語埋め込み空間における類似性に基づいて,bitextマイニングを評価するための新しいプロキシスコア(xSIM++)を導入する。
xSIM と比較して,xSIM++ は,マイニングされたbitexts で学習した翻訳システムの下流 BLEU スコアとよく相関していることを示す。
- 参考スコア(独自算出の注目度): 15.351726952216369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new proxy score for evaluating bitext mining based on
similarity in a multilingual embedding space: xSIM++. In comparison to xSIM,
this improved proxy leverages rule-based approaches to extend English sentences
in any evaluation set with synthetic, hard-to-distinguish examples which more
closely mirror the scenarios we encounter during large-scale mining. We
validate this proxy by running a significant number of bitext mining
experiments for a set of low-resource languages, and subsequently train NMT
systems on the mined data. In comparison to xSIM, we show that xSIM++ is better
correlated with the downstream BLEU scores of translation systems trained on
mined bitexts, providing a reliable proxy of bitext mining performance without
needing to run expensive bitext mining pipelines. xSIM++ also reports
performance for different error types, offering more fine-grained feedback for
model development.
- Abstract(参考訳): 複数言語埋め込み空間における類似性に基づいて,bitextマイニングを評価するための新しいプロキシスコア(xSIM++)を導入する。
xSIMと比較して、この改良されたプロキシはルールベースのアプローチを利用して、大規模な鉱業で遭遇するシナリオをより深く反映した、合成的で難しい例で設定された任意の評価において、英語文を拡張する。
低リソース言語のセットでかなりの数のバイテキストマイニング実験を実行し、その後、マイニングされたデータでnmtシステムをトレーニングすることで、このプロキシを検証する。
xSIMと比較して、xSIM++は、マイニングされたbitextで訓練された翻訳システムの下流BLEUスコアとよりよく相関していることを示し、高価なbitextマイニングパイプラインを走らせることなく、信頼性の高いbitextマイニング性能のプロキシを提供する。
xSIM++はまた、異なるエラータイプのパフォーマンスを報告し、モデル開発に対してよりきめ細かいフィードバックを提供する。
関連論文リスト
- RETSim: Resilient and Efficient Text Similarity [1.6228944467258688]
RETSimは、テキスト検索、クラスタリング、データセット重複タスクのための堅牢なメトリック埋め込みを生成するためにトレーニングされた、軽量で多言語的なディープラーニングモデルである。
我々は、RETSimがMinHashやニューラルテキストの埋め込みよりもはるかに堅牢で正確であることを実証した。
また,W4NT3Dベンチマークを用いて,多言語・ほぼ重複したテキスト検索機能の評価を行った。
論文 参考訳(メタデータ) (2023-11-28T22:54:33Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-16T14:49:50Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。