Fugu-MT 論文翻訳(概要): Itihasa: A large-scale corpus for Sanskrit to English translation

論文の概要: Itihasa: A large-scale corpus for Sanskrit to English translation

arxiv url: http://arxiv.org/abs/2106.03269v2
Date: Tue, 8 Jun 2021 16:48:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-09 11:33:02.024550
Title: Itihasa: A large-scale corpus for Sanskrit to English translation
Title（参考訳）: Itihasa:サンスクリット語訳のための大規模なコーパス
Authors: Rahul Aralikatte, Miryam de Lhoneux, Anoop Kunchukuttan, Anders S{\o}gaard
Abstract要約: イティハサ (Itihasa) は、サンスクリット語の93,000対のスロカとその英訳を含む大規模な翻訳データセットである。まず、このようなデータセットのキュレーションの背後にあるモチベーションを説明し、そのニュアンスを引き出すための経験的分析を続行する。
参考スコア（独自算出の注目度）: 9.566221218224637
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work introduces Itihasa, a large-scale translation dataset containing 93,000 pairs of Sanskrit shlokas and their English translations. The shlokas are extracted from two Indian epics viz., The Ramayana and The Mahabharata. We first describe the motivation behind the curation of such a dataset and follow up with empirical analysis to bring out its nuances. We then benchmark the performance of standard translation models on this corpus and show that even state-of-the-art transformer architectures perform poorly, emphasizing the complexity of the dataset.
Abstract（参考訳）: この研究は、93,000対のサンスクリット・スロカとその英訳を含む大規模な翻訳データセットであるイティハサを紹介した。シュロカは2つのインド叙事詩『ラマーヤナ』と『マハーバーラタ』から抽出される。まず、このようなデータセットのキュレーションの背景にある動機を説明し、そのニュアンスを引き出すために経験的分析を追従する。そして、このコーパスで標準翻訳モデルのパフォーマンスをベンチマークし、最先端のトランスフォーマーアーキテクチャでさえも性能が悪く、データセットの複雑さが強調されることを示した。

関連論文リスト

Mitrasamgraha: A Comprehensive Classical Sanskrit Machine Translation Dataset [26.899919193282944]
Mitrasamgrahaは、391,548ビットの組からなる高品質なサンスクリットから英語への機械翻訳データセットである。 3千年以上の期間と、様々な歴史的サンスクリットの領域をカバーしている。我々は、このデータセット上で商用およびオープンなモデルをベンチマークし、データセット上でNLLBおよびGemmaモデルを微調整する実験を行う。
論文参考訳（メタデータ） (2026-01-12T08:37:15Z)
CorIL: Towards Enriching Indian Language to Indian Language Parallel Corpora and Machine Translation Systems [18.521673953685575]
インドの言語風景は世界でも最も多様であり、120以上の主要言語と1,600以上の追加言語から構成されている。最近の多言語ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、インドの言語に対する高品質な並列コーパスは依然として乏しい。本稿では,11言語を対象とした大規模で高品質な並列コーパスを提案する。
論文参考訳（メタデータ） (2025-09-24T09:48:26Z)
Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages [11.540702510360985]
我々は、8つのインドの言語にまたがる280万行以上の英語とインデックスとインデックスの高品質な翻訳ペアを含む並列コーパスを作成します。我々は、このコーパスを用いてNMTモデルを微調整し、評価し、ドメイン内のタスクで利用可能な他のすべてのモデルを超えます。
論文参考訳（メタデータ） (2024-12-12T07:40:55Z)
Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文参考訳（メタデータ） (2024-08-05T07:58:58Z)
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。 ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文参考訳（メタデータ） (2024-07-29T09:45:34Z)
Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文参考訳（メタデータ） (2024-05-31T07:51:19Z)
What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文参考訳（メタデータ） (2023-10-31T17:59:38Z)
Sāmayik: A Benchmark and Dataset for English-Sanskrit Translation [30.315293326789828]
S=amayikは、現代の散文で書かれた53,000の英サンスクリット文からなるデータセットである。 S=amayikは、言語教材、テキスト教育教育、オンラインチュートリアルなど、さまざまな分野からキュレーションされている。
論文参考訳（メタデータ） (2023-05-23T12:32:24Z)
The Effect of Normalization for Bi-directional Amharic-English Neural Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文参考訳（メタデータ） (2022-10-27T07:18:53Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
Semantic and sentiment analysis of selected Bhagavad Gita translations using BERT-based language framework [0.4125187280299248]
バガヴァド・ギーガ(Bhagavad Gita)は、サンスクリットで書かれた古代ヒンドゥー教の哲学書で、マハーバーラタ戦争の前にクリシュナ卿とアルジュナの会話を描いている。本稿では,Bhagavad Gitaから選択された翻訳文(主にサンスクリット語から英語)を,意味分析と感情分析を用いて比較する。
論文参考訳（メタデータ） (2022-01-09T23:59:11Z)
Anubhuti -- An annotated dataset for emotional analysis of Bengali short stories [2.3424047967193826]
アヌブティはベンガルの短編小説の著者が表現した感情を分析するための最初の、そして最大のテキストコーパスである。本稿では,データ収集手法,手作業によるアノテーション処理,そして結果として生じるハイアノテータ間の合意について説明する。我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットの性能を検証した。
論文参考訳（メタデータ） (2020-10-06T22:33:58Z)
An Augmented Translation Technique for low Resource language pair: Sanskrit to Hindi translation [0.0]
本研究では、低リソース言語ペアに対してZST(Zero Shot Translation)を検査する。サンスクリット語からヒンディー語への翻訳では、データが不足しているのと同じアーキテクチャがテストされている。データストレージのメモリ使用量を削減するため,単語埋め込みの次元化を行う。
論文参考訳（メタデータ） (2020-06-09T17:01:55Z)
Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文参考訳（メタデータ） (2020-04-09T17:54:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。