論文の概要: Darmok and Jalad at Tanagra: A Dataset and Model for English-to-Tamarian
Translation
- arxiv url: http://arxiv.org/abs/2107.08146v1
- Date: Fri, 16 Jul 2021 23:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 09:33:26.664933
- Title: Darmok and Jalad at Tanagra: A Dataset and Model for English-to-Tamarian
Translation
- Title(参考訳): Darmok and Jalad at Tanagra: A Dataset and Model for English-to-Tamarian Translation
- Authors: Peter Jansen
- Abstract要約: スター・トレックのエピソード『ダルモック』で紹介された架空の言語であるタマリアンは、比喩的な言及の発声を通じて意味を伝える。
本作品では、原話からのタマリア語・英語の発声辞典と、それに続くいくつかの小説をまとめ、これを用いて456の英語・タマリア語を平行に訳したコーパスを構築している。
大規模言語モデル(T5)に基づく機械翻訳システムは、この並列コーパスを用いて訓練されており、既知の発話に基づいて英語からタマリアンへの翻訳の際には精度が76%であることが示されている。
- 参考スコア(独自算出の注目度): 2.2894649979080777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tamarian, a fictional language introduced in the Star Trek episode Darmok,
communicates meaning through utterances of metaphorical references, such as
"Darmok and Jalad at Tanagra" instead of "We should work together." This work
assembles a Tamarian-English dictionary of utterances from the original episode
and several follow-on novels, and uses this to construct a parallel corpus of
456 English-Tamarian utterances. A machine translation system based on a large
language model (T5) is trained using this parallel corpus, and is shown to
produce an accuracy of 76% when translating from English to Tamarian on known
utterances.
- Abstract(参考訳): スター・トレックのエピソード『ダルモック』で紹介された架空の言語であるタマリアンは、"We should working together"の代わりに"Darmok and Jalad at Tanagra"のような比喩的な言及の発声を通じて意味を伝える。
本書は、タマリアン・イングリッシュによる最初のエピソードからの発話の辞書といくつかの後続の小説を組み立て、これを用いて456の英語とタマリアンの発話の並列コーパスを構築する。
大規模言語モデル(T5)に基づく機械翻訳システムは、この並列コーパスを用いて訓練されており、既知の発話に基づいて英語からタマリアンへの翻訳時に精度が76%であることが示されている。
関連論文リスト
- Ukrainian-to-English folktale corpus: Parallel corpus creation and augmentation for machine translation in low-resource languages [0.0]
我々は、利用可能な英語の翻訳に基づいて、ウクライナ語と英語の類似したウクライナの民俗の新たなコーパスを作成しました。
私たちのコーパスは単語と文の一致であり、特に機械翻訳モデルのトレーニングデータとしての使用に適した意味の最良のキュレーションを可能にします。
論文 参考訳(メタデータ) (2024-10-14T01:00:53Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Finetuning a Kalaallisut-English machine translation system using
web-crawled data [6.85316573653194]
西グリーンランド語(西グリーンランド語、英語: West Greenlandic)は、グリーンランドで約56,000人が話している極低資源の合成言語である。
そこで我々は,約30の多言語WebサイトからのWebcrawled pseudoparallel文を用いて,事前訓練されたKalaallisut-to- English neural machine translation (NMT)システムを微調整する。
論文 参考訳(メタデータ) (2022-06-05T17:56:55Z) - Translating Hanja Historical Documents to Contemporary Korean and
English [52.625998002213585]
李氏朝鮮のアナルスには、朝鮮の近代国家に先立つ500年の王国である李氏朝鮮の日記がある。
アナル文字はもともとは古代朝鮮の文体「ハンジャ」で書かれ、1968年から1993年にかけて朝鮮語に翻訳された。
以後、10年間に1人の王の記録が完成した。
本稿では,ハンハの歴史的文書を韓国語や英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
論文 参考訳(メタデータ) (2022-05-20T08:25:11Z) - Itihasa: A large-scale corpus for Sanskrit to English translation [9.566221218224637]
イティハサ (Itihasa) は、サンスクリット語の93,000対のスロカとその英訳を含む大規模な翻訳データセットである。
まず、このようなデータセットのキュレーションの背後にあるモチベーションを説明し、そのニュアンスを引き出すための経験的分析を続行する。
論文 参考訳(メタデータ) (2021-06-06T22:58:13Z) - English-Twi Parallel Corpus for Machine Translation [0.0061423327574940114]
25,421文ペアの英語とAkuapem Twiのための並列機械翻訳トレーニングコーパスを紹介します。
Akuapem Twiの初期翻訳をトランスレータで生成し,その後,母語話者が必要に応じて検証・修正した。
さらに、下流の自然言語処理(NLP)タスクの評価セットとして、697の高品質のクラウドソース文が用意されています。
論文 参考訳(メタデータ) (2021-03-29T14:04:57Z) - Leveraging Multilingual News Websites for Building a Kurdish Parallel
Corpus [0.6445605125467573]
クルド語、ソラニ語、クルマンジ語の2つの主要方言に12,327の翻訳ペアを含むコーパスを提示する。
また、英語のクルマンジ語と英語のソルニ語で1,797と650の翻訳ペアを提供している。
論文 参考訳(メタデータ) (2020-10-04T11:52:50Z) - Lite Training Strategies for Portuguese-English and English-Portuguese
Translation [67.4894325619275]
ポルトガル語・英語・ポルトガル語の翻訳タスクにおいて,T5などの事前学習モデルの使用について検討する。
本稿では,ポルトガル語の文字,例えばダイアレーシス,急性アクセント,墓のアクセントを表すために,英語のトークン化器の適応を提案する。
以上の結果から,本モデルは最新モデルと競合する性能を示しながら,控えめなハードウェアでトレーニングを行った。
論文 参考訳(メタデータ) (2020-08-20T04:31:03Z) - Bilingual Dictionary Based Neural Machine Translation without Using
Parallel Sentences [45.99290614777277]
そこで本稿では, 並列文をベースとした機械翻訳(MT)を新たに提案する。
バイリンガル辞書を検索して翻訳する単言語話者学習能力に感化されて,MTシステムがどの程度の確率で到達できるかを確認するタスクを提案する。
論文 参考訳(メタデータ) (2020-07-06T12:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。