論文の概要: MITRA: A Large-Scale Parallel Corpus and Multilingual Pretrained Language Model for Machine Translation and Semantic Retrieval for Pāli, Sanskrit, Buddhist Chinese, and Tibetan
- arxiv url: http://arxiv.org/abs/2601.06400v1
- Date: Sat, 10 Jan 2026 02:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.794251
- Title: MITRA: A Large-Scale Parallel Corpus and Multilingual Pretrained Language Model for Machine Translation and Semantic Retrieval for Pāli, Sanskrit, Buddhist Chinese, and Tibetan
- Title(参考訳): MITRA:パリー語、サンスクリット語、仏語、チベット語のための大規模並列コーパスと機械翻訳・意味検索のための多言語事前学習言語モデル
- Authors: Sebastian Nehrdich, Kurt Keutzer,
- Abstract要約: 古代仏教文学は様々な言語にまたがる頻繁な、しかししばしば注釈のない、テキストの平行関係を特徴としている。
我々は,多言語並列パスマイニングのための新しいパイプラインからなるMITRAフレームワークを提案する。
本稿では,機械翻訳タスクを微調整したバージョンであるGemma 2 MITRA-MTについて述べる。
また,新しい,詳細なセマンティック埋め込みベンチマーク上での最先端性能を示すセマンティック埋め込みモデルであるGemma 2 MITRA-Eを提案する。
- 参考スコア(独自算出の注目度): 37.02203941008799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ancient Buddhist literature features frequent, yet often unannotated, textual parallels spread across diverse languages: Sanskrit, Pāli, Buddhist Chinese, Tibetan, and more. The scale of this material makes manual examination prohibitive. We present the MITRA framework, which consists of a novel pipeline for multilingual parallel passage mining, MITRA-parallel, a large-scale corpus of 1.74 million parallel sentence pairs between Sanskrit, Chinese, and Tibetan, and the development of the domain-specific pretrained language model Gemma 2 MITRA. We present Gemma 2 MITRA-MT, a version of this base model fine-tuned on machine translation tasks, reaching state-of-the-art performance for machine translation of these languages into English and outperforming even much larger open-source models. We also present Gemma 2 MITRA-E, a semantic embedding model that shows state-of-the-art performance on a novel, detailed semantic embedding benchmark. We make the parallel dataset, model weights, and semantic similarity benchmark openly available to aid both NLP research and philological studies in Buddhist and classical Asian literature.
- Abstract(参考訳): 古代仏教文学は、サンスクリット語、パーリ語、仏教の漢語、チベット語など、多種多様な言語にまたがる頻繁な、しかししばしば注釈のない、テキストの平行関係を特徴としている。
この素材のスケールは手動試験を禁止します。
我々は,多言語並列パスマイニングのための新しいパイプライン,MITRA-parallel,サンスクリット,中国語,チベット語間の174万の並列文ペアからなる大規模コーパス,およびドメイン固有の事前訓練言語モデルGemma 2 MITRAの開発からなるMITRAフレームワークを提案する。
Gemma 2 MITRA-MTは、機械翻訳タスクに微調整されたこのベースモデルのバージョンで、これらの言語の機械翻訳の最先端のパフォーマンスに達し、さらに大きなオープンソースモデルよりも優れています。
また,新しい,詳細なセマンティック埋め込みベンチマーク上での最先端性能を示すセマンティック埋め込みモデルであるGemma 2 MITRA-Eを提案する。
我々は,仏教・古典アジア文学におけるNLP研究と文献研究の両方を支援するために,並列データセット,モデルウェイト,意味類似性ベンチマークを公開している。
関連論文リスト
- Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages [11.540702510360985]
我々は、8つのインドの言語にまたがる280万行以上の英語とインデックスとインデックスの高品質な翻訳ペアを含む並列コーパスを作成します。
我々は、このコーパスを用いてNMTモデルを微調整し、評価し、ドメイン内のタスクで利用可能な他のすべてのモデルを超えます。
論文 参考訳(メタデータ) (2024-12-12T07:40:55Z) - Multilingual Text Style Transfer: Datasets & Models for Indian Languages [1.116636487692753]
本稿では,インド諸言語にまたがるTSTサブタスクである感情伝達に焦点を当てた。
これらの8言語それぞれに対して、1000の正と1000の負のスタイルパラレル文からなる専用データセットを導入する。
並列性,非並列性,クロスランガル性,共有学習アプローチに分類した各種ベンチマークモデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-05-31T14:05:27Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Distilling Efficient Language-Specific Models for Cross-Lingual Transfer [75.32131584449786]
多言語変換器(MMT)は多言語間変換学習に広く用いられている。
MMTの言語カバレッジは、モデルサイズ、推論時間、エネルギ、ハードウェアコストの点で、必要以上にコストがかかる。
本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTのキャパシティを保持することを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:52Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z) - ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual
Semantics with Monolingual Corpora [21.78571365050787]
ERNIE-Mは、複数の言語の表現をモノリンガルコーパスと整合させる新しいトレーニング手法である。
単言語コーパス上で擬似並列文ペアを生成し、異なる言語間のセマンティックアライメントの学習を可能にする。
実験結果から,ERNIE-Mは既存の言語間モデルよりも優れており,様々な言語間下流タスクに対して新たな最先端結果を提供することがわかった。
論文 参考訳(メタデータ) (2020-12-31T15:52:27Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。