論文の概要: Darmok and Jalad at Tanagra: A Dataset and Model for English-to-Tamarian
Translation
- arxiv url: http://arxiv.org/abs/2107.08146v1
- Date: Fri, 16 Jul 2021 23:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 09:33:26.664933
- Title: Darmok and Jalad at Tanagra: A Dataset and Model for English-to-Tamarian
Translation
- Title(参考訳): Darmok and Jalad at Tanagra: A Dataset and Model for English-to-Tamarian Translation
- Authors: Peter Jansen
- Abstract要約: スター・トレックのエピソード『ダルモック』で紹介された架空の言語であるタマリアンは、比喩的な言及の発声を通じて意味を伝える。
本作品では、原話からのタマリア語・英語の発声辞典と、それに続くいくつかの小説をまとめ、これを用いて456の英語・タマリア語を平行に訳したコーパスを構築している。
大規模言語モデル(T5)に基づく機械翻訳システムは、この並列コーパスを用いて訓練されており、既知の発話に基づいて英語からタマリアンへの翻訳の際には精度が76%であることが示されている。
- 参考スコア(独自算出の注目度): 2.2894649979080777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tamarian, a fictional language introduced in the Star Trek episode Darmok,
communicates meaning through utterances of metaphorical references, such as
"Darmok and Jalad at Tanagra" instead of "We should work together." This work
assembles a Tamarian-English dictionary of utterances from the original episode
and several follow-on novels, and uses this to construct a parallel corpus of
456 English-Tamarian utterances. A machine translation system based on a large
language model (T5) is trained using this parallel corpus, and is shown to
produce an accuracy of 76% when translating from English to Tamarian on known
utterances.
- Abstract(参考訳): スター・トレックのエピソード『ダルモック』で紹介された架空の言語であるタマリアンは、"We should working together"の代わりに"Darmok and Jalad at Tanagra"のような比喩的な言及の発声を通じて意味を伝える。
本書は、タマリアン・イングリッシュによる最初のエピソードからの発話の辞書といくつかの後続の小説を組み立て、これを用いて456の英語とタマリアンの発話の並列コーパスを構築する。
大規模言語モデル(T5)に基づく機械翻訳システムは、この並列コーパスを用いて訓練されており、既知の発話に基づいて英語からタマリアンへの翻訳時に精度が76%であることが示されている。
関連論文リスト
- The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Finetuning a Kalaallisut-English machine translation system using
web-crawled data [6.85316573653194]
西グリーンランド語(西グリーンランド語、英語: West Greenlandic)は、グリーンランドで約56,000人が話している極低資源の合成言語である。
そこで我々は,約30の多言語WebサイトからのWebcrawled pseudoparallel文を用いて,事前訓練されたKalaallisut-to- English neural machine translation (NMT)システムを微調整する。
論文 参考訳(メタデータ) (2022-06-05T17:56:55Z) - Translating Hanja Historical Documents to Contemporary Korean and
English [52.625998002213585]
李氏朝鮮のアナルスには、朝鮮の近代国家に先立つ500年の王国である李氏朝鮮の日記がある。
アナル文字はもともとは古代朝鮮の文体「ハンジャ」で書かれ、1968年から1993年にかけて朝鮮語に翻訳された。
以後、10年間に1人の王の記録が完成した。
本稿では,ハンハの歴史的文書を韓国語や英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
論文 参考訳(メタデータ) (2022-05-20T08:25:11Z) - Itihasa: A large-scale corpus for Sanskrit to English translation [9.566221218224637]
イティハサ (Itihasa) は、サンスクリット語の93,000対のスロカとその英訳を含む大規模な翻訳データセットである。
まず、このようなデータセットのキュレーションの背後にあるモチベーションを説明し、そのニュアンスを引き出すための経験的分析を続行する。
論文 参考訳(メタデータ) (2021-06-06T22:58:13Z) - "Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks [20.837515947519524]
リンクされたウィキペディアページの最初の文とタイトル、およびクロスリンガル画像キャプションは、二言語辞書を抽出し、ウィキペディアからパラレルテキストをマイニングするためのクロスリンガル単語埋め込みを抽出するシードパラレルデータのための強力な信号である。
画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。
アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。
論文 参考訳(メタデータ) (2021-04-16T21:49:12Z) - English-Twi Parallel Corpus for Machine Translation [0.0061423327574940114]
25,421文ペアの英語とAkuapem Twiのための並列機械翻訳トレーニングコーパスを紹介します。
Akuapem Twiの初期翻訳をトランスレータで生成し,その後,母語話者が必要に応じて検証・修正した。
さらに、下流の自然言語処理(NLP)タスクの評価セットとして、697の高品質のクラウドソース文が用意されています。
論文 参考訳(メタデータ) (2021-03-29T14:04:57Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z) - Lite Training Strategies for Portuguese-English and English-Portuguese
Translation [67.4894325619275]
ポルトガル語・英語・ポルトガル語の翻訳タスクにおいて,T5などの事前学習モデルの使用について検討する。
本稿では,ポルトガル語の文字,例えばダイアレーシス,急性アクセント,墓のアクセントを表すために,英語のトークン化器の適応を提案する。
以上の結果から,本モデルは最新モデルと競合する性能を示しながら,控えめなハードウェアでトレーニングを行った。
論文 参考訳(メタデータ) (2020-08-20T04:31:03Z) - Bilingual Dictionary Based Neural Machine Translation without Using
Parallel Sentences [45.99290614777277]
そこで本稿では, 並列文をベースとした機械翻訳(MT)を新たに提案する。
バイリンガル辞書を検索して翻訳する単言語話者学習能力に感化されて,MTシステムがどの程度の確率で到達できるかを確認するタスクを提案する。
論文 参考訳(メタデータ) (2020-07-06T12:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。