論文の概要: ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback
- arxiv url: http://arxiv.org/abs/2107.14800v2
- Date: Mon, 2 Aug 2021 16:27:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 10:46:10.501162
- Title: ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback
- Title(参考訳): ChrEnTranslate: 品質推定と修正フィードバックを備えたチェロキー英語機械翻訳デモ
- Authors: Shiyue Zhang, Benjamin Frey, Mohit Bansal
- Abstract要約: ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
- 参考スコア(独自算出の注目度): 70.5469946314539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ChrEnTranslate, an online machine translation demonstration
system for translation between English and an endangered language Cherokee. It
supports both statistical and neural translation models as well as provides
quality estimation to inform users of reliability, two user feedback interfaces
for experts and common users respectively, example inputs to collect human
translations for monolingual data, word alignment visualization, and relevant
terms from the Cherokee-English dictionary. The quantitative evaluation
demonstrates that our backbone translation models achieve state-of-the-art
translation performance and our quality estimation well correlates with both
BLEU and human judgment. By analyzing 216 pieces of expert feedback, we find
that NMT is preferable because it copies less than SMT, and, in general,
current models can translate fragments of the source sentence but make major
mistakes. When we add these 216 expert-corrected parallel texts back into the
training set and retrain models, equal or slightly better performance is
observed, which indicates the potential of human-in-the-loop learning. Our
online demo is at https://chren.cs.unc.edu/ , our code is open-sourced at
https://github.com/ZhangShiyue/ChrEnTranslate , and our data is available at
https://github.com/ZhangShiyue/ChrEn
- Abstract(参考訳): ChrEnTranslateは、英語と絶滅危惧言語であるチェロキー語を翻訳するオンライン機械翻訳実証システムである。
統計モデルとニューラル翻訳モデルの両方をサポートし、信頼性をユーザに知らせる品質推定、専門家と一般ユーザのための2つのユーザフィードバックインターフェース、モノリンガルデータのための人間の翻訳を収集する入力、単語のアライメントの可視化、チェロキー英語辞典からの関連用語を提供する。
定量的評価は, バックボーン翻訳モデルが最先端の翻訳性能を達成し, 品質推定はbleuと人間の判断とよく相関することを示した。
216個の専門家フィードバックを解析することにより、NMTはSMTよりコピーが少ないため、現在のモデルでは、ソース文の断片を翻訳できるが、大きな誤りを犯すことができる。
トレーニングセットとリトレーニングモデルに、これらの216のエキスパート修正パラレルテキストを追加して、同等か、あるいはやや優れたパフォーマンスを観察することで、ループ内学習の可能性を示しています。
私たちのコードはhttps://github.com/ZhangShiyue/ChrEnTranslateで、データはhttps://github.com/ZhangShiyue/ChrEnで利用可能です。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Detecting over/under-translation errors for determining adequacy in
human translations [0.0]
本稿では,翻訳評価における誤りチェックの一部として,OT/UT(Over and Under translations)の新たな手法を提案する。
我々は、機械翻訳(mt)出力に制限はせず、特に人間が生成した翻訳パイプラインでアプリケーションをターゲットにしています。
本システムの目的は、人間の翻訳ビデオ字幕からOT/UTエラーを高いエラーリコールで識別することである。
論文 参考訳(メタデータ) (2021-04-01T06:06:36Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。