論文の概要: Volctrans Parallel Corpus Filtering System for WMT 2020
- arxiv url: http://arxiv.org/abs/2010.14029v1
- Date: Tue, 27 Oct 2020 03:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:58:06.671134
- Title: Volctrans Parallel Corpus Filtering System for WMT 2020
- Title(参考訳): WMT2020のためのVolctrans並列コーパスフィルタリングシステム
- Authors: Runxin Xu, Zhuo Zhi, Jun Cao, Mingxuan Wang, Lei Li
- Abstract要約: 並列コーパスフィルタリングとアライメントに関するWMT20共有タスクについて述べる。
我々のシステムであるVolctransは、マイニングモジュールとスコアリングモジュールの2つのモジュールで構成されている。
我々は,Scratch/Fine-Tune条件において,3.x/2.xと2.x/2.xをkm-en,ps-enで比較した。
- 参考スコア(独自算出の注目度): 33.75277312823084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we describe our submissions to the WMT20 shared task on
parallel corpus filtering and alignment for low-resource conditions. The task
requires the participants to align potential parallel sentence pairs out of the
given document pairs, and score them so that low-quality pairs can be filtered.
Our system, Volctrans, is made of two modules, i.e., a mining module and a
scoring module. Based on the word alignment model, the mining module adopts an
iterative mining strategy to extract latent parallel sentences. In the scoring
module, an XLM-based scorer provides scores, followed by reranking mechanisms
and ensemble. Our submissions outperform the baseline by 3.x/2.x and 2.x/2.x
for km-en and ps-en on From Scratch/Fine-Tune conditions, which is the highest
among all submissions.
- Abstract(参考訳): 本稿では、並列コーパスフィルタリングと低リソース条件のアライメントに関するwmt20共有タスクへの提案について述べる。
このタスクでは、参加者は与えられたドキュメントペアから潜在的な並列文ペアを調整し、低品質のペアをフィルタできるようにスコアを付ける必要があります。
我々のシステムであるVolctransは、採掘モジュールと採点モジュールの2つのモジュールで構成されている。
単語アライメントモデルに基づいて、マイニングモジュールは、潜在並列文を抽出するために反復マイニング戦略を採用する。
スコアリングモジュールでは、XLMベースのスコアラーがスコアを提供し、その後に機構とアンサンブルを再配置する。
Scratch/Fine-Tune条件下では,3.x/2.xと2.x/2.xがベースラインを上回っている。
関連論文リスト
- The Fellowship of the LLMs: Multi-Agent Workflows for Synthetic Preference Optimization Dataset Generation [4.524402497958597]
本稿では,マルチエージェントを用いた合成優先度最適化(PO)データセットの生成手法を提案する。
データセット生成プロセスの自動化と向上において,これらの有効性と可能性を評価する。
論文 参考訳(メタデータ) (2024-08-16T12:01:55Z) - Multi-Level Aggregation and Recursive Alignment Architecture for Efficient Parallel Inference Segmentation Network [18.47001817385548]
セグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。
実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。
我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。
論文 参考訳(メタデータ) (2024-02-03T22:51:17Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z) - Minimal Filtering Algorithms for Convolutional Neural Networks [82.24592140096622]
我々は,M=3,5,7,9,11の基本的なフィルタリング操作を実装するための完全並列ハードウェア指向アルゴリズムを開発した。
各ケースにおける提案アルゴリズムの完全な並列ハードウェア実装は、組込み乗算器の数を約30%削減する。
論文 参考訳(メタデータ) (2020-04-12T13:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。