論文の概要: Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset
- arxiv url: http://arxiv.org/abs/2601.07314v1
- Date: Mon, 12 Jan 2026 08:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.288267
- Title: Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset
- Title(参考訳): Mitrasamgraha: 包括的な古典的なサンスクリット機械翻訳データセット
- Authors: Sebastian Nehrdich, David Allport, Sven Sellmer, Jivnesh Sandhan, Manoj Balaji Jagadeeshan, Pawan Goyal, Sujeet Kumar, Kurt Keutzer,
- Abstract要約: Mitrasamgrahaは、391,548ビットの組からなる高品質なサンスクリットから英語への機械翻訳データセットである。
3千年以上の期間と、様々な歴史的サンスクリットの領域をカバーしている。
我々は、このデータセット上で商用およびオープンなモデルをベンチマークし、データセット上でNLLBおよびGemmaモデルを微調整する実験を行う。
- 参考スコア(独自算出の注目度): 26.899919193282944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While machine translation is regarded as a "solved problem" for many high-resource languages, close analysis quickly reveals that this is not the case for content that shows challenges such as poetic language, philosophical concepts, multi-layered metaphorical expressions, and more. Sanskrit literature is a prime example of this, as it combines a large number of such challenges in addition to inherent linguistic features like sandhi, compounding, and heavy morphology, which further complicate NLP downstream tasks. It spans multiple millennia of text production time as well as a large breadth of different domains, ranging from ritual formulas via epic narratives, philosophical treatises, poetic verses up to scientific material. As of now, there is a strong lack of publicly available resources that cover these different domains and temporal layers of Sanskrit. We therefore introduce Mitrasamgraha, a high-quality Sanskrit-to-English machine translation dataset consisting of 391,548 bitext pairs, more than four times larger than the largest previously available Sanskrit dataset Itih=asa. It covers a time period of more than three millennia and a broad range of historical Sanskrit domains. In contrast to web-crawled datasets, the temporal and domain annotation of this dataset enables fine-grained study of domain and time period effects on MT performance. We also release a validation set consisting of 5,587 and a test set consisting of 5,552 post-corrected bitext pairs. We conduct experiments benchmarking commercial and open models on this dataset and fine-tune NLLB and Gemma models on the dataset, showing significant improvements, while still recognizing significant challenges in the translation of complex compounds, philosophical concepts, and multi-layered metaphors. We also analyze how in-context learning on this dataset impacts the performance of commercial models
- Abstract(参考訳): 機械翻訳は多くの高ソース言語において「解決問題」と見なされているが、綿密な分析によって、詩語、哲学的概念、多層比喩表現などといった課題を示すコンテンツには、これが当てはまらないことがすぐに明らかになった。
サンスクリット文学は、サンディー、コンプレックス、重形態学といった固有の言語的特徴に加えて、多くの課題が組み合わされ、さらにNLP下流のタスクが複雑になるため、この主な例である。
数千年に及ぶテキスト制作時間と、叙事詩の物語、哲学論文、詩詩、科学資料など、様々な領域の広い範囲にまたがる。
現在、これらの異なるドメインとサンスクリットの時間層をカバーする、公開リソースの欠如が強い。
そこで,391,548ビットextペアからなる高品質なサンスクリット・英語機械翻訳データセットであるMitrasamgrahaを紹介した。
3千年以上の期間と、様々な歴史的サンスクリットの領域をカバーしている。
ウェブクローリングデータセットとは対照的に、このデータセットの時間的およびドメイン的アノテーションは、MT性能に対するドメインおよび時間的影響のきめ細かい研究を可能にする。
また,5,587の検証セットと5,552の修正後のbitextペアからなるテストセットもリリースした。
我々は、このデータセット上の商用およびオープンなモデルと、データセット上の微調整のNLLBとGemmaモデルをベンチマークする実験を行い、重要な改善点を示しながら、複雑な化合物、哲学的概念、多層メタファーの翻訳において重要な課題を認識している。
また、このデータセットのコンテキスト内学習が商用モデルの性能に与える影響を分析する。
関連論文リスト
- Mahānāma: A Unique Testbed for Literary Entity Discovery and Linking [5.247057581790816]
Mah=an=amaは、サンスクリットでエンドツーエンドのエンティティディスカバリとリンクのための最初の大規模データセットである。
データセットは、5.5Kのユニークなエンティティにマッピングされた109K以上の名前付きエンティティを含む。
Mah=an=amaの複雑な物語構造は、広範囲な名前のバリエーションや曖昧さと相まって、解決システムに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-09-24T07:42:39Z) - TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation [88.14715494221123]
テキスト条件付き画像生成における長文レンダリングの評価を目的とした,新しいデータセットであるTextAtlas5Mを紹介する。
私たちのデータセットは、500万の長文生成と、さまざまなデータタイプにわたる画像の収集で構成されています。
さらに、3つのデータドメインにまたがる3000の人間改良テストセットTextAtlasEvalをキュレートし、テキスト条件生成のための最も広範なベンチマークの1つを確立します。
論文 参考訳(メタデータ) (2025-02-11T18:59:19Z) - Towards Building Large Scale Datasets and State-of-the-Art Automatic Speech Translation Systems for 14 Indian Languages [27.273651323572786]
BhasaAnuvaadは、インドの言語で最大の音声翻訳データセットで、4400万時間以上のオーディオと1700万行のテキストセグメントにまたがる。
本実験は, 翻訳品質の向上を実証し, インド語音声翻訳の新しい標準を設定した。
アクセシビリティとコラボレーションを促進するために、許容ライセンス付きのすべてのコード、データ、モデルの重みをオープンソースでリリースします。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.3750624267664155]
古典アラビア語は、アラブ文化、哲学、科学文学の黄金時代を包含する重要な時代である。
我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。
ATHARデータセットは、66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文 参考訳(メタデータ) (2024-07-29T09:45:34Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Salute the Classic: Revisiting Challenges of Machine Translation in the
Age of Large Language Models [91.6543868677356]
ニューラルネットワーク翻訳の進化は、6つのコア課題の影響を受けている。
これらの課題には、ドメインミスマッチ、並列データの量、まれな単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、そして準最適ビームサーチが含まれる。
この研究はこれらの課題を再考し、先進的な大規模言語モデルにおけるそれらの継続的な関連性についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-16T13:30:09Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Sāmayik: A Benchmark and Dataset for English-Sanskrit Translation [30.315293326789828]
S=amayikは、現代の散文で書かれた53,000の英サンスクリット文からなるデータセットである。
S=amayikは、言語教材、テキスト教育教育、オンラインチュートリアルなど、さまざまな分野からキュレーションされている。
論文 参考訳(メタデータ) (2023-05-23T12:32:24Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。