論文の概要: Translating the Unseen? Yor\`ub\'a $\rightarrow$ English MT in
Low-Resource, Morphologically-Unmarked Settings
- arxiv url: http://arxiv.org/abs/2103.04225v2
- Date: Tue, 9 Mar 2021 04:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 12:26:12.853989
- Title: Translating the Unseen? Yor\`ub\'a $\rightarrow$ English MT in
Low-Resource, Morphologically-Unmarked Settings
- Title(参考訳): Unseen の翻訳?
Yor\`ub\'a $\rightarrow$ English MT in Low-Resource, Morphologically-unmarked settingss
- Authors: Ife Adebara, Muhammad Abdul-Mageed, Miikka Silfverberg
- Abstract要約: 特定の特徴が一方で形態素的にマークされているが、他方で欠落または文脈的にマークされている言語間の翻訳は、機械翻訳の重要なテストケースである。
本研究では,Yorub'a の素名詞を英語に翻訳する際に,SMTシステムと2つの NMT システムとの比較を行う。
- 参考スコア(独自算出の注目度): 8.006185289499049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating between languages where certain features are marked
morphologically in one but absent or marked contextually in the other is an
important test case for machine translation. When translating into English
which marks (in)definiteness morphologically, from Yor\`ub\'a which uses bare
nouns but marks these features contextually, ambiguities arise. In this work,
we perform fine-grained analysis on how an SMT system compares with two NMT
systems (BiLSTM and Transformer) when translating bare nouns in Yor\`ub\'a into
English. We investigate how the systems what extent they identify BNs,
correctly translate them, and compare with human translation patterns. We also
analyze the type of errors each model makes and provide a linguistic
description of these errors. We glean insights for evaluating model performance
in low-resource settings. In translating bare nouns, our results show the
transformer model outperforms the SMT and BiLSTM models for 4 categories, the
BiLSTM outperforms the SMT model for 3 categories while the SMT outperforms the
NMT models for 1 category.
- Abstract(参考訳): 特定の特徴が一方で形態素的にマークされているが、他方で欠落または文脈的にマークされている言語間の翻訳は、機械翻訳の重要なテストケースである。
定型性(in)を形態的にマークする英語に翻訳する場合、Yor\`ub\'a は素名詞を用いるが、これらの特徴を文脈的にマークする。
本研究では、Yor\`ub\'a の素名詞を英語に翻訳する際に、SMT システムが 2 つの NMT システム (BiLSTM と Transformer) とどのように比較するかを細かく分析する。
システムがどのようにBNを識別し、正しく翻訳し、人間の翻訳パターンと比較するかを検討する。
また,各モデルが犯す誤りの種類を分析し,それらの誤りを言語的に記述する。
低リソース設定でモデルパフォーマンスを評価するための洞察を得る。
素名詞の翻訳では, トランスフォーマーモデルは4つのカテゴリでSMT, BiLSTMモデルより優れ, BiLSTMは3つのカテゴリでSMTモデルより優れ, SMTは1つのカテゴリでNMTモデルより優れていた。
関連論文リスト
- Word Order in English-Japanese Simultaneous Interpretation: Analyses and Evaluation using Chunk-wise Monotonic Translation [13.713981533436135]
本稿では,ソース言語の単語順に従う単調翻訳の特徴を同時解釈(SI)で解析する。
NAIST英語と日本語の単調翻訳評価データセットを用いて,チャンクワイド単調翻訳(CMT)文の特徴を解析した。
さらに,既存の音声翻訳(ST)と同時音声翻訳(simulST)モデルからの出力を評価し,CMT文の特徴について検討した。
論文 参考訳(メタデータ) (2024-06-13T09:10:16Z) - Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Do GPTs Produce Less Literal Translations? [20.095646048167612]
大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。
GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、機械翻訳の品質指標に類似またはより良いスコアが示されることがわかりました。
論文 参考訳(メタデータ) (2023-05-26T10:38:31Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Towards Reliable Neural Machine Translation with Consistency-Aware
Meta-Learning [24.64700139151659]
現在のニューラル機械翻訳(NMT)システムは信頼性の欠如に悩まされている。
本稿では,モデルに依存しないメタラーニング(MAML)アルゴリズムをベースとした,一貫性を考慮したメタラーニング(CAML)フレームワークを提案する。
我々は、NIST中国語から英語へのタスク、3つのWMT翻訳タスク、TED M2Oタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-03-20T09:41:28Z) - Evaluating and Improving the Coreference Capabilities of Machine
Translation Models [30.60934078720647]
機械翻訳は幅広い言語能力を必要とする。
現在のエンドツーエンドモデルは、バイリンガルコーパスで一致した文を観察することで暗黙的に学習することが期待されている。
論文 参考訳(メタデータ) (2023-02-16T18:16:09Z) - Improving Simultaneous Machine Translation with Monolingual Data [94.1085601198393]
同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。
本稿では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:13:53Z) - It is Not as Good as You Think! Evaluating Simultaneous Machine
Translation on Interpretation Data [58.105938143865906]
我々は、実解釈データに基づいて、SiMTシステムをトレーニングし、テストすべきであると主張している。
以上の結果から,SiMTモデルが翻訳データと解釈データで評価された場合,最大13.83BLEUスコアの違いが明らかになった。
論文 参考訳(メタデータ) (2021-10-11T12:27:07Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Assessing the Bilingual Knowledge Learned by Neural Machine Translation
Models [72.56058378313963]
NMTモデルで学習したバイリンガル知識をフレーズテーブルで評価することで,このギャップを埋める。
NMTモデルは、単純なものから複雑なものまでパターンを学習し、トレーニング例から本質的なバイリンガル知識を抽出する。
論文 参考訳(メタデータ) (2020-04-28T03:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。