論文の概要: Majority Voting with Bidirectional Pre-translation Improves Bitext
Retrieval
- arxiv url: http://arxiv.org/abs/2103.06369v1
- Date: Wed, 10 Mar 2021 22:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 15:02:18.637659
- Title: Majority Voting with Bidirectional Pre-translation Improves Bitext
Retrieval
- Title(参考訳): 双方向事前翻訳による多数投票によるバイテクスト検索の改善
- Authors: Alex Jones and Derry Tanti Wijaya
- Abstract要約: 一般的なアプローチは、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングすることであった。
本稿では,現状の手法による問題を概説し,それらの問題に対する計算経済的解決策を提案し,新しい手法による成功を実証する。
実験に使用されるコードとデータは公開されています。
- 参考スコア(独自算出の注目度): 2.580271290008534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Obtaining high-quality parallel corpora is of paramount importance for
training NMT systems. However, as many language pairs lack adequate
gold-standard training data, a popular approach has been to mine so-called
"pseudo-parallel" sentences from paired documents in two languages. In this
paper, we outline some problems with current methods, propose computationally
economical solutions to those problems, and demonstrate success with novel
methods on the Tatoeba similarity search benchmark and on a downstream task,
namely NMT. We uncover the effect of resource-related factors (i.e. how much
monolingual/bilingual data is available for a given language) on the optimal
choice of bitext mining approach, and echo problems with the oft-used BUCC
dataset that have been observed by others. We make the code and data used for
our experiments publicly available.
- Abstract(参考訳): 高品質の並列コーポラの取得は、NMTシステムのトレーニングに非常に重要です。
しかし、多くの言語ペアは十分な金本位制の訓練データを持っていないため、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングする手法が一般的である。
本稿では,現在の手法の問題点を概説し,それらの問題に対する計算学的に経済的な解決策を提案し,タトエバ類似度検索ベンチマークと下流タスク,すなわちNMTでの新しい手法で成功を実証する。
資源関連要因(リソース関連因子)の効果を明らかにする。
バイテキストマイニングアプローチの最適選択に関する単言語/バイリンガルデータ(ある言語でどの程度)と、他の言語で観測されているbuccデータセットとのエコー問題。
実験に使用されるコードとデータは公開されています。
関連論文リスト
- An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - HintedBT: Augmenting Back-Translation with Quality and Transliteration
Hints [7.452359972117693]
標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である
私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。
これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-09-09T17:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。