論文の概要: Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset
- arxiv url: http://arxiv.org/abs/2601.07314v1
- Date: Mon, 12 Jan 2026 08:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.288267
- Title: Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset
- Title(参考訳): Mitrasamgraha: 包括的な古典的なサンスクリット機械翻訳データセット
- Authors: Sebastian Nehrdich, David Allport, Sven Sellmer, Jivnesh Sandhan, Manoj Balaji Jagadeeshan, Pawan Goyal, Sujeet Kumar, Kurt Keutzer,
- Abstract要約: Mitrasamgrahaは、391,548ビットの組からなる高品質なサンスクリットから英語への機械翻訳データセットである。
3千年以上の期間と、様々な歴史的サンスクリットの領域をカバーしている。
我々は、このデータセット上で商用およびオープンなモデルをベンチマークし、データセット上でNLLBおよびGemmaモデルを微調整する実験を行う。
- 参考スコア(独自算出の注目度): 26.899919193282944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While machine translation is regarded as a "solved problem" for many high-resource languages, close analysis quickly reveals that this is not the case for content that shows challenges such as poetic language, philosophical concepts, multi-layered metaphorical expressions, and more. Sanskrit literature is a prime example of this, as it combines a large number of such challenges in addition to inherent linguistic features like sandhi, compounding, and heavy morphology, which further complicate NLP downstream tasks. It spans multiple millennia of text production time as well as a large breadth of different domains, ranging from ritual formulas via epic narratives, philosophical treatises, poetic verses up to scientific material. As of now, there is a strong lack of publicly available resources that cover these different domains and temporal layers of Sanskrit. We therefore introduce Mitrasamgraha, a high-quality Sanskrit-to-English machine translation dataset consisting of 391,548 bitext pairs, more than four times larger than the largest previously available Sanskrit dataset Itih=asa. It covers a time period of more than three millennia and a broad range of historical Sanskrit domains. In contrast to web-crawled datasets, the temporal and domain annotation of this dataset enables fine-grained study of domain and time period effects on MT performance. We also release a validation set consisting of 5,587 and a test set consisting of 5,552 post-corrected bitext pairs. We conduct experiments benchmarking commercial and open models on this dataset and fine-tune NLLB and Gemma models on the dataset, showing significant improvements, while still recognizing significant challenges in the translation of complex compounds, philosophical concepts, and multi-layered metaphors. We also analyze how in-context learning on this dataset impacts the performance of commercial models
- Abstract(参考訳): 機械翻訳は多くの高ソース言語において「解決問題」と見なされているが、綿密な分析によって、詩語、哲学的概念、多層比喩表現などといった課題を示すコンテンツには、これが当てはまらないことがすぐに明らかになった。
サンスクリット文学は、サンディー、コンプレックス、重形態学といった固有の言語的特徴に加えて、多くの課題が組み合わされ、さらにNLP下流のタスクが複雑になるため、この主な例である。
数千年に及ぶテキスト制作時間と、叙事詩の物語、哲学論文、詩詩、科学資料など、様々な領域の広い範囲にまたがる。
現在、これらの異なるドメインとサンスクリットの時間層をカバーする、公開リソースの欠如が強い。
そこで,391,548ビットextペアからなる高品質なサンスクリット・英語機械翻訳データセットであるMitrasamgrahaを紹介した。
3千年以上の期間と、様々な歴史的サンスクリットの領域をカバーしている。
ウェブクローリングデータセットとは対照的に、このデータセットの時間的およびドメイン的アノテーションは、MT性能に対するドメインおよび時間的影響のきめ細かい研究を可能にする。
また,5,587の検証セットと5,552の修正後のbitextペアからなるテストセットもリリースした。
我々は、このデータセット上の商用およびオープンなモデルと、データセット上の微調整のNLLBとGemmaモデルをベンチマークする実験を行い、重要な改善点を示しながら、複雑な化合物、哲学的概念、多層メタファーの翻訳において重要な課題を認識している。
また、このデータセットのコンテキスト内学習が商用モデルの性能に与える影響を分析する。
関連論文リスト
- TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation [88.14715494221123]
テキスト条件付き画像生成における長文レンダリングの評価を目的とした,新しいデータセットであるTextAtlas5Mを紹介する。
私たちのデータセットは、500万の長文生成と、さまざまなデータタイプにわたる画像の収集で構成されています。
さらに、3つのデータドメインにまたがる3000の人間改良テストセットTextAtlasEvalをキュレートし、テキスト条件生成のための最も広範なベンチマークの1つを確立します。
論文 参考訳(メタデータ) (2025-02-11T18:59:19Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - Sāmayik: A Benchmark and Dataset for English-Sanskrit Translation [30.315293326789828]
S=amayikは、現代の散文で書かれた53,000の英サンスクリット文からなるデータセットである。
S=amayikは、言語教材、テキスト教育教育、オンラインチュートリアルなど、さまざまな分野からキュレーションされている。
論文 参考訳(メタデータ) (2023-05-23T12:32:24Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。