論文の概要: COMET-QE and Active Learning for Low-Resource Machine Translation
- arxiv url: http://arxiv.org/abs/2210.15696v1
- Date: Thu, 27 Oct 2022 18:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:57:31.101835
- Title: COMET-QE and Active Learning for Low-Resource Machine Translation
- Title(参考訳): 低リソース機械翻訳のためのCOMET-QEとアクティブラーニング
- Authors: Everlyn Asiko Chimoto and Bruce A. Bassett
- Abstract要約: COMET-QEは,RTTL (Round Trip Translation Likelihood) とランダム文選択の2つの変種よりも有意に優れていた。
これはCOMET-QEが低リソース限界における文選択の強力なツールであることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning aims to deliver maximum benefit when resources are scarce. We
use COMET-QE, a reference-free evaluation metric, to select sentences for
low-resource neural machine translation. Using Swahili, Kinyarwanda and Spanish
for our experiments, we show that COMET-QE significantly outperforms two
variants of Round Trip Translation Likelihood (RTTL) and random sentence
selection by up to 5 BLEU points for 20k sentences selected by Active Learning
on a 30k baseline. This suggests that COMET-QE is a powerful tool for sentence
selection in the very low-resource limit.
- Abstract(参考訳): アクティブラーニングは、リソースが不足している場合に最大限の利益をもたらすことを目的としている。
低リソースニューラルネットワーク翻訳のための文の選択には,参照不要評価指標であるCOMET-QEを用いる。
スワヒリ、キニアルワンダ、スペイン語を実験に用いて、30kのベースラインでアクティブラーニングによって選択された20万文に対して、rttl(ラウンドトリップ変換度)とランダム文選択の2つの変種を有意に上回っていることを示した。
これはCOMET-QEが低リソース限界における文選択の強力なツールであることを示唆している。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - QE-EBM: Using Quality Estimators as Energy Loss for Machine Translation [5.10832476049103]
トレーニング可能な損失ネットワークとして品質推定器を用いるQE-EBMを提案する。
本稿では,ソース言語として英語を用いた低リソース・高リソースターゲット言語について検討する。
論文 参考訳(メタデータ) (2024-10-14T07:39:33Z) - In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation [20.704153242284114]
機械翻訳(MT)は、テキスト内翻訳の例から恩恵を受けることが示されているタスクである。
サンプルの選択方法に関する体系的な研究は発表されておらず、類似性に基づく選択の有用性について混合の結果が報告されている。
文の埋め込み類似性は,特に低リソース言語方向においてMTを改善することができる。
論文 参考訳(メタデータ) (2024-08-01T09:07:32Z) - Beyond MLE: Investigating SEARNN for Low-Resourced Neural Machine Translation [0.09459165957946088]
このプロジェクトは、低リソースのアフリカ言語のための機械翻訳を改善するSEARNNの可能性を探求した。
英語をイグボ語に、フランス語をエウス語に、フランス語をグマラ語に翻訳する実験が行われた。
我々は、SEARNNが、低リソース言語のための機械翻訳において、効果的にRNNを訓練するための有効なアルゴリズムであることを証明した。
論文 参考訳(メタデータ) (2024-05-20T06:28:43Z) - Low-Resource Machine Translation through Retrieval-Augmented LLM Prompting: A Study on the Mambai Language [1.1702440973773898]
本研究では,Timor-Lesteで話される低音源のオーストロネシア語であるMambaiへの英語翻訳における大規模言語モデルの利用について検討した。
提案手法は, 並列文と辞書エントリの戦略的な選択と, プロンプトのための手法である。
辞書をインプロンプトに含め,-IDFで検索した文とセマンティック埋め込みを混合することにより,翻訳品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-07T05:04:38Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Low Resource Neural Machine Translation: A Benchmark for Five African
Languages [14.97774471012222]
英語と5つのアフリカのLRLペア(Swahili, Amharic, Tigrigna, Oromo, Somali)のNMTをベンチマークする。
ベースライン単一言語対 NMT モデルと半教師付き学習,移動学習,多言語モデリングを比較した。
平均的なBLEUスコアでは、多言語的アプローチは10の翻訳方向のうち6つで最大5点までの最大利得を示す。
論文 参考訳(メタデータ) (2020-03-31T17:50:07Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。