論文の概要: IWLV-Ramayana: A Sarga-Aligned Parallel Corpus of Valmiki's Ramayana Across Indian Languages
- arxiv url: http://arxiv.org/abs/2604.13078v1
- Date: Sat, 21 Mar 2026 07:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.667156
- Title: IWLV-Ramayana: A Sarga-Aligned Parallel Corpus of Valmiki's Ramayana Across Indian Languages
- Title(参考訳): IWLV-ラマヤナ(IWLV-Ramayana) : ヴァルミキのラマーヤナのサルガ・アライン・パラレル・コーパス
- Authors: Sumesh VP,
- Abstract要約: 本稿では, サルガ(チャプタ)レベルにおいて, ヴァルミキのラマーヤナを複数言語にまたがる並列コーパスであるIWLV Ramayana Corpusを紹介する。
データセットは構造化Lフォーマットで明示的な証明とともに配布され、比較文学、コーパス言語学、人文科学、多言語自然言語処理に応用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Ramayana is among the most influential literary traditions of South and Southeast Asia, transmitted across numerous linguistic and cultural contexts over two millennia. Despite extensive scholarship on regional Ramayana traditions, computational resources enabling systematic cross-linguistic analysis remain limited. This paper introduces the IWLV Ramayana Corpus, a structured parallel corpus aligning Valmiki's Ramayana across multiple Indian languages at the level of the sarga (chapter). The corpus currently includes complete English and Malayalam layers, with Hindi, Tamil, Kannada, and Telugu layers in active production. The dataset is distributed in structured JSONL format with explicit provenance metadata, enabling applications in comparative literature, corpus linguistics, digital humanities, and multilingual natural language processing. To our knowledge, this is the first sarga-aligned multilingual parallel corpus of the Valmiki Ramayana with explicit provenance metadata and machine-readable format.
- Abstract(参考訳): ラマーヤナは南アジアや東南アジアで最も影響力のある文学の伝統の一つであり、2千年にわたって多くの言語や文化の文脈で伝えられている。
地域ラマーヤナの伝統に関する広範な学問にもかかわらず、体系的な言語間分析を可能にする計算資源は依然として限られている。
本稿では,Valmikiのラマーヤナを,サルガ(チャプタ)のレベルで複数言語にまたがる並列コーパスであるIWLV Ramayana Corpusを紹介する。
コーパスは現在、ヒンディー語、タミル語、カナダ語、テルグ語といった完全な英語とマラヤラムの層が生産されている。
データセットは構造化されたJSONL形式で配布され、明示的な証明メタデータによって、比較文学、コーパス言語学、デジタル人文科学、多言語自然言語処理などの応用が可能になる。
我々の知る限り、これはValmiki Ramayanaの最初のサルガ整列多言語並列コーパスであり、明確な証明メタデータと機械可読形式である。
関連論文リスト
- MITRA: A Large-Scale Parallel Corpus and Multilingual Pretrained Language Model for Machine Translation and Semantic Retrieval for Pāli, Sanskrit, Buddhist Chinese, and Tibetan [37.02203941008799]
古代仏教文学は様々な言語にまたがる頻繁な、しかししばしば注釈のない、テキストの平行関係を特徴としている。
我々は,多言語並列パスマイニングのための新しいパイプラインからなるMITRAフレームワークを提案する。
本稿では,機械翻訳タスクを微調整したバージョンであるGemma 2 MITRA-MTについて述べる。
また,新しい,詳細なセマンティック埋め込みベンチマーク上での最先端性能を示すセマンティック埋め込みモデルであるGemma 2 MITRA-Eを提案する。
論文 参考訳(メタデータ) (2026-01-10T02:47:33Z) - CorIL: Towards Enriching Indian Language to Indian Language Parallel Corpora and Machine Translation Systems [18.521673953685575]
インドの言語風景は世界でも最も多様であり、120以上の主要言語と1,600以上の追加言語から構成されている。
最近の多言語ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、インドの言語に対する高品質な並列コーパスは依然として乏しい。
本稿では,11言語を対象とした大規模で高品質な並列コーパスを提案する。
論文 参考訳(メタデータ) (2025-09-24T09:48:26Z) - BhashaVerse : Translation Ecosystem for Indian Subcontinent Languages [4.1101087490516575]
本稿では,36言語を対象とした翻訳モデルとその関連アプリケーションの開発に焦点をあてる。
スクリプトのバリエーション、音声の違い、構文の多様性といった課題に対処する。
既存の資源を活用し、並列データセットを開発し、ドメイン固有のコーパスを生成し、合成データ技術を利用するコーパス作成戦略を提案する。
論文 参考訳(メタデータ) (2024-12-05T17:10:19Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Mukhyansh: A Headline Generation Dataset for Indic Languages [4.583536403673757]
Mukhyanshは、インド語の見出し生成に適した、広範囲にわたる多言語データセットである。
ムハーンシュ語は3億3900万以上の記事の見出しから成り、8つの著名なインドの言語にまたがっている。
Mukhyanshは、他のすべてのモデルより優れており、平均ROUGE-Lスコアは8言語すべてで31.43である。
論文 参考訳(メタデータ) (2023-11-29T15:49:24Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Sāmayik: A Benchmark and Dataset for English-Sanskrit Translation [30.315293326789828]
S=amayikは、現代の散文で書かれた53,000の英サンスクリット文からなるデータセットである。
S=amayikは、言語教材、テキスト教育教育、オンラインチュートリアルなど、さまざまな分野からキュレーションされている。
論文 参考訳(メタデータ) (2023-05-23T12:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。