論文の概要: S\={a}mayik: A Benchmark and Dataset for English-Sanskrit Translation
- arxiv url: http://arxiv.org/abs/2305.14004v1
- Date: Tue, 23 May 2023 12:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:28:52.932028
- Title: S\={a}mayik: A Benchmark and Dataset for English-Sanskrit Translation
- Title(参考訳): S\={a}mayik:英語・サンスクリット翻訳のためのベンチマークとデータセット
- Authors: Ayush Maheshwari, Ashim Gupta, Amrith Krishna, Ganesh Ramakrishnan, G.
Anil Kumar, Jitin Singla
- Abstract要約: 4つの異なるコーパスから42,000以上のパラレル英語とサンスクリット語の文のデータセットをリリースする。
また、サンスクリット語訳のための既存の多言語事前学習モデルから適応したベンチマークもリリースする。
- 参考スコア(独自算出の注目度): 29.957331111354552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sanskrit is a low-resource language with a rich heritage. Digitized Sanskrit
corpora reflective of the contemporary usage of Sanskrit, specifically that too
in prose, is heavily under-represented at present. Presently, no such
English-Sanskrit parallel dataset is publicly available. We release a dataset,
S\={a}mayik, of more than 42,000 parallel English-Sanskrit sentences, from four
different corpora that aim to bridge this gap. Moreover, we also release
benchmarks adapted from existing multilingual pretrained models for
Sanskrit-English translation. We include training splits from our contemporary
dataset and the Sanskrit-English parallel sentences from the training split of
Itih\={a}sa, a previously released classical era machine translation dataset
containing Sanskrit.
- Abstract(参考訳): サンスクリットは、豊富な遺産を持つ低リソース言語である。
サンスクリットの現代的な用法を反映したディジタイズされたサンスクリットのコーパス、特に散文でも同様であるが、現在はほとんど表現されていない。
現在、このような英語とサンスクリットの並列データセットは公開されていない。
このギャップを埋めるために、4つの異なるコーパスから42,000以上の並列英語-サンスクリット文からなるデータセット s\={a}mayik をリリースします。
さらに,サンスクリット英語翻訳のための既存の多言語事前学習モデルから適応したベンチマークもリリースする。
私たちは、現在のデータセットからのトレーニング分割と、以前リリースされたsanskritを含む古典時代の機械翻訳データセットであるitih\={a}saのトレーニング分割から、sanskrit- english並列文を含む。
関連論文リスト
- One Model is All You Need: ByT5-Sanskrit, a Unified Model for Sanskrit NLP Tasks [26.848664285007022]
ByT5-Sanskritは、形態的にリッチなサンスクリット言語を含むNLPアプリケーション向けに設計された。
外部の言語資源によってカバーされていないデータへのデプロイが容易で、より堅牢である。
提案手法は,他の形態学的にリッチな言語に対する補題化と依存関係解析のための新たなベストスコアが得られることを示す。
論文 参考訳(メタデータ) (2024-09-20T22:02:26Z) - Pretraining Data and Tokenizer for Indic LLM [1.7729311045335219]
我々は,多言語Indic大言語モデル構築のためのデータ準備のための新しいアプローチを開発する。
われわれの厳密なデータ取得は、Common Crawl、Indic Book、ニュース記事、Wikipediaなど、オープンソースとプロプライエタリなソースにまたがっている。
Indic言語毎に、冗長で低品質なテキストコンテンツを効果的に除去するカスタムプリプロセッシングパイプラインを設計する。
論文 参考訳(メタデータ) (2024-07-17T11:06:27Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A Benchmark and Dataset for Post-OCR text correction in Sanskrit [23.45279030301887]
サンスクリット語は古典言語であり、約3000万の写本がデジタル化に適合している。
我々は,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
論文 参考訳(メタデータ) (2022-11-15T08:32:18Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - HinFlair: pre-trained contextual string embeddings for pos tagging and
text classification in the Hindi language [0.0]
HinFlairは、巨大な単言語Hindiコーパスで事前訓練された言語表現モデル(コンテキスト文字列埋め込み)である。
結果は、HinFlairが、テキスト分類やposタグ付けといった下流タスクのために、既存の最先端の公開トレーニング済みの埋め込みよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-01-18T09:23:35Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。