論文の概要: S\={a}mayik: A Benchmark and Dataset for English-Sanskrit Translation
- arxiv url: http://arxiv.org/abs/2305.14004v1
- Date: Tue, 23 May 2023 12:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:28:52.932028
- Title: S\={a}mayik: A Benchmark and Dataset for English-Sanskrit Translation
- Title(参考訳): S\={a}mayik:英語・サンスクリット翻訳のためのベンチマークとデータセット
- Authors: Ayush Maheshwari, Ashim Gupta, Amrith Krishna, Ganesh Ramakrishnan, G.
Anil Kumar, Jitin Singla
- Abstract要約: 4つの異なるコーパスから42,000以上のパラレル英語とサンスクリット語の文のデータセットをリリースする。
また、サンスクリット語訳のための既存の多言語事前学習モデルから適応したベンチマークもリリースする。
- 参考スコア(独自算出の注目度): 29.957331111354552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sanskrit is a low-resource language with a rich heritage. Digitized Sanskrit
corpora reflective of the contemporary usage of Sanskrit, specifically that too
in prose, is heavily under-represented at present. Presently, no such
English-Sanskrit parallel dataset is publicly available. We release a dataset,
S\={a}mayik, of more than 42,000 parallel English-Sanskrit sentences, from four
different corpora that aim to bridge this gap. Moreover, we also release
benchmarks adapted from existing multilingual pretrained models for
Sanskrit-English translation. We include training splits from our contemporary
dataset and the Sanskrit-English parallel sentences from the training split of
Itih\={a}sa, a previously released classical era machine translation dataset
containing Sanskrit.
- Abstract(参考訳): サンスクリットは、豊富な遺産を持つ低リソース言語である。
サンスクリットの現代的な用法を反映したディジタイズされたサンスクリットのコーパス、特に散文でも同様であるが、現在はほとんど表現されていない。
現在、このような英語とサンスクリットの並列データセットは公開されていない。
このギャップを埋めるために、4つの異なるコーパスから42,000以上の並列英語-サンスクリット文からなるデータセット s\={a}mayik をリリースします。
さらに,サンスクリット英語翻訳のための既存の多言語事前学習モデルから適応したベンチマークもリリースする。
私たちは、現在のデータセットからのトレーニング分割と、以前リリースされたsanskritを含む古典時代の機械翻訳データセットであるitih\={a}saのトレーニング分割から、sanskrit- english並列文を含む。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - A Benchmark and Dataset for Post-OCR text correction in Sanskrit [23.45279030301887]
サンスクリット語は古典言語であり、約3000万の写本がデジタル化に適合している。
我々は,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
論文 参考訳(メタデータ) (2022-11-15T08:32:18Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Itihasa: A large-scale corpus for Sanskrit to English translation [9.566221218224637]
イティハサ (Itihasa) は、サンスクリット語の93,000対のスロカとその英訳を含む大規模な翻訳データセットである。
まず、このようなデータセットのキュレーションの背後にあるモチベーションを説明し、そのニュアンスを引き出すための経験的分析を続行する。
論文 参考訳(メタデータ) (2021-06-06T22:58:13Z) - HinFlair: pre-trained contextual string embeddings for pos tagging and
text classification in the Hindi language [0.0]
HinFlairは、巨大な単言語Hindiコーパスで事前訓練された言語表現モデル(コンテキスト文字列埋め込み)である。
結果は、HinFlairが、テキスト分類やposタグ付けといった下流タスクのために、既存の最先端の公開トレーニング済みの埋め込みよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-01-18T09:23:35Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - An Augmented Translation Technique for low Resource language pair:
Sanskrit to Hindi translation [0.0]
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。
サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。
データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
論文 参考訳(メタデータ) (2020-06-09T17:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。