論文の概要: Samasāmayik: A Parallel Dataset for Hindi-Sanskrit Machine Translation
- arxiv url: http://arxiv.org/abs/2603.24307v1
- Date: Wed, 25 Mar 2026 13:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.314188
- Title: Samasāmayik: A Parallel Dataset for Hindi-Sanskrit Machine Translation
- Title(参考訳): Samasāmayik:ヒンディーサンスクリット機械翻訳のための並列データセット
- Authors: N J Karthika, Keerthana Suryanarayanan, Jahanvi Purohit, Ganesh Ramakrishnan, Jitin Singla, Anil Kumar Gourishetty,
- Abstract要約: サマスマイク(Samasmayik)は、92,196のパラレル文からなる、巧妙にキュレートされた大規模なヒンディー・サンスクリット・コーパスである。
ByT5、NLLB、IndicTrans-v2の3つの補完モデルを微調整して、この新しいデータセットをベンチマークし、その実用性を実証する。
実験の結果,Samasamayikコーパスでトレーニングしたモデルがドメイン内テストデータに対して大きな性能向上を実現し,他の広く使用されているテストセットに匹敵する性能を達成できた。
- 参考スコア(独自算出の注目度): 12.522148604600341
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We release Samasāmayik, a novel, meticulously curated, large-scale Hindi-Sanskrit corpus, comprising 92,196 parallel sentences. Unlike most data available in Sanskrit, which focuses on classical era text and poetry, this corpus aggregates data from diverse sources covering contemporary materials, including spoken tutorials, children's magazines, radio conversations, and instruction materials. We benchmark this new dataset by fine-tuning three complementary models - ByT5, NLLB and IndicTrans-v2, to demonstrate its utility. Our experiments demonstrate that models trained on the Samasamayik corpus achieve significant performance gains on in-domain test data, while achieving comparable performance on other widely used test sets, establishing a strong new performance baseline for contemporary Hindi-Sanskrit translation. Furthermore, a comparative analysis against existing corpora reveals minimal semantic and lexical overlap, confirming the novelty and non-redundancy of our dataset as a robust new resource for low-resource Indic language MT.
- Abstract(参考訳): 我々は、92,196のパラレル文からなる、巧妙にキュレートされた大規模なヒンディー・サンスクリットコーパスであるSamasāmayikをリリースする。
サンスクリットの古典的なテキストや詩に焦点を当てた多くのデータとは異なり、このコーパスは、話し言葉のチュートリアル、子供の雑誌、ラジオの会話、教育資料など、現代の資料を含む様々な資料からデータを収集する。
ByT5、NLLB、IndicTrans-v2の3つの補完モデルを微調整して、この新しいデータセットをベンチマークし、その有用性を実証する。
実験により, サママイクコーパスでトレーニングしたモデルは, ドメイン内テストデータに対して顕著な性能向上を実現し, また, 他の広く使用されているテストセットに対して同等の性能を実現し, 現代ヒンディー・サンスクリット翻訳の強力な性能基盤を確立した。
さらに、既存のコーパスとの比較分析により、低リソースのIndic言語MTのための堅牢な新しいリソースとして、データセットの新規性と非冗長性を確認し、最小限の意味的および語彙的重複を明らかにした。
関連論文リスト
- Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset [26.899919193282944]
Mitrasamgrahaは、391,548ビットの組からなる高品質なサンスクリットから英語への機械翻訳データセットである。
3千年以上の期間と、様々な歴史的サンスクリットの領域をカバーしている。
我々は、このデータセット上で商用およびオープンなモデルをベンチマークし、データセット上でNLLBおよびGemmaモデルを微調整する実験を行う。
論文 参考訳(メタデータ) (2026-01-12T08:37:15Z) - End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data [5.950263765640278]
本稿では、弱いラベル付きデータを用いて音声からテキストへの翻訳モデルを構築することができるという仮説を考察する。
我々は、最先端の文エンコーダを用いて、Bitextマイニングの助けを借りてデータセットを構築した。
以上の結果から,STシステムはマルチモーダルな多言語ベースラインに匹敵する性能を持つ弱いラベル付きデータで構築可能であることが示された。
論文 参考訳(メタデータ) (2025-06-19T12:11:01Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Sāmayik: A Benchmark and Dataset for English-Sanskrit Translation [30.315293326789828]
S=amayikは、現代の散文で書かれた53,000の英サンスクリット文からなるデータセットである。
S=amayikは、言語教材、テキスト教育教育、オンラインチュートリアルなど、さまざまな分野からキュレーションされている。
論文 参考訳(メタデータ) (2023-05-23T12:32:24Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Extract, Integrate, Compete: Towards Verification Style Reading
Comprehension [66.2551168928688]
本稿では,ガオカオの中国語テストから,VGaokaoと命名された新しい検証スタイル読解データセットを提案する。
VGaokaoの課題に対処するため,我々は新しい抽出・抽出・計算手法を提案する。
論文 参考訳(メタデータ) (2021-09-11T01:34:59Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。