論文の概要: Larth: Dataset and Machine Translation for Etruscan
- arxiv url: http://arxiv.org/abs/2310.05688v1
- Date: Mon, 9 Oct 2023 12:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 05:00:20.219456
- Title: Larth: Dataset and Machine Translation for Etruscan
- Title(参考訳): Larth: Etruscanのデータセットと機械翻訳
- Authors: Gianluca Vico, Gerasimos Spanakis
- Abstract要約: エトルリア語(Etruscan)は、紀元前7世紀から紀元前1世紀にかけてイタリアで話されていた古代の言語である。
私たちの知る限りでは、自然言語処理のためのEtruscanコーパスは公開されていない。
本稿では,エトルリア語から英語への機械翻訳データセットを提案する。
- 参考スコア(独自算出の注目度): 9.880887106904519
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Etruscan is an ancient language spoken in Italy from the 7th century BC to
the 1st century AD. There are no native speakers of the language at the present
day, and its resources are scarce, as there exist only around 12,000 known
inscriptions. To the best of our knowledge, there are no publicly available
Etruscan corpora for natural language processing. Therefore, we propose a
dataset for machine translation from Etruscan to English, which contains 2891
translated examples from existing academic sources. Some examples are extracted
manually, while others are acquired in an automatic way. Along with the
dataset, we benchmark different machine translation models observing that it is
possible to achieve a BLEU score of 10.1 with a small transformer model.
Releasing the dataset can help enable future research on this language, similar
languages or other languages with scarce resources.
- Abstract(参考訳): エトルリア語(etruscan)は、紀元前7世紀から紀元1世紀にかけてイタリアで話された古代の言語である。
現在、この言語の母語話者はおらず、その資源はわずか12,000の既知の碑文しか残っていない。
私たちの知る限り、自然言語処理のためのetruscan corporaは公開されていません。
そこで本研究では,エトルリア語から英語への機械翻訳のためのデータセットを提案する。
手動で抽出する例もあれば、自動で取得する例もある。
データセットとともに、小さな変換器モデルでBLEUスコア10.1を達成可能であることを観察する異なる機械翻訳モデルをベンチマークする。
データセットの緩和は、この言語、類似言語、あるいはリソース不足の他の言語に関する将来の研究を可能にする。
関連論文リスト
- Dialectal and Low Resource Machine Translation for Aromanian [44.99833362998488]
ルーマニア語、英語、ルーマニア語を翻訳できるニューラルマシン翻訳システムを提案する。
BLEUスコアはテキストの方向やジャンルによって17から32まで様々である。
Aromanian-Romanian-Romanian bilingual corpus は 79k 個の清潔な文対から構成される。
論文 参考訳(メタデータ) (2024-10-23T10:00:23Z) - EthioMT: Parallel Corpus for Low-resource Ethiopian Languages [49.80726355048843]
15言語用の新しい並列コーパスであるEthioMTを紹介する。
また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。
トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。
論文 参考訳(メタデータ) (2024-03-28T12:26:45Z) - A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - The first neural machine translation system for the Erzya language [0.0951828574518325]
絶滅危惧言語エルジーア語とロシア語を翻訳するための最初のニューラルマシン翻訳システムを提案する。
BLEUのスコアはエルジーア語とロシア語への翻訳で17と19であり、翻訳の半数以上が母語話者によって受け入れられていると評価されている。
収集したテキストコーパス、新しい言語識別モデル、Erzya言語に適応した多言語文エンコーダとともに、翻訳モデルをリリースする。
論文 参考訳(メタデータ) (2022-09-19T22:21:37Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Aksharantar: Open Indic-language Transliteration datasets and models for
the Next Billion Users [32.23606056944172]
Aksharantarは、モノリンガルコーパスとパラレルコーパスからのマイニングによって生成された、インド語のための最大公用翻訳データセットである。
データセットには、12のスクリプトを使用して、3つの言語ファミリーから21のIndic言語に対する2600万の文字ペアが含まれている。
Aksharantarは、既存のデータセットの21倍の大きさで、7つの言語と1つの言語ファミリーのための最初の公開データセットである。
論文 参考訳(メタデータ) (2022-05-06T05:13:12Z) - Many-to-English Machine Translation Tools, Data, and Pretrained Models [19.49814793168753]
機械翻訳研究に有用なツールとして,MTData,NLCodec,RTGを提案する。
500のソース言語から英語に翻訳できる多言語のニューラルマシン翻訳モデルを作成します。
論文 参考訳(メタデータ) (2021-04-01T06:55:12Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。