論文の概要: The Mediomatix Corpus: Parallel Data for Romansh Idioms via Comparable Schoolbooks
- arxiv url: http://arxiv.org/abs/2508.16371v1
- Date: Fri, 22 Aug 2025 13:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.390271
- Title: The Mediomatix Corpus: Parallel Data for Romansh Idioms via Comparable Schoolbooks
- Title(参考訳): Mediomatix Corpus:Comparable Schoolbooksによるロマンシュイディオムの並列データ
- Authors: Zachary Hopton, Jannis Vamvas, Andrin Büchler, Anna Rutkiewicz, Rico Cathomas, Rico Sennrich,
- Abstract要約: 我々は,Romansh idiomsの最初の並列コーパスを提示する。
コーパスは291冊の校本に基づいており、5つのイディオムに匹敵する内容である。
自動アライメント手法を用いて,本書から207k個のマルチ並列セグメントを抽出し,合計で2M以上のトークンを抽出する。
小規模な人間による評価では、セグメントが非常に並列であることが確認されており、ロマシュイディオム間の機械翻訳のようなNLPアプリケーションに適したデータセットとなっている。
- 参考スコア(独自算出の注目度): 28.968782899998804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The five idioms (i.e., varieties) of the Romansh language are largely standardized and are taught in the schools of the respective communities in Switzerland. In this paper, we present the first parallel corpus of Romansh idioms. The corpus is based on 291 schoolbook volumes, which are comparable in content for the five idioms. We use automatic alignment methods to extract 207k multi-parallel segments from the books, with more than 2M tokens in total. A small-scale human evaluation confirms that the segments are highly parallel, making the dataset suitable for NLP applications such as machine translation between Romansh idioms. We release the parallel and unaligned versions of the dataset under a CC-BY-NC-SA license and demonstrate its utility for machine translation by training and evaluating an LLM on a sample of the dataset.
- Abstract(参考訳): ロマンシュ語の5つのイディオム(つまり品種)は概ね標準化されており、スイスのそれぞれのコミュニティの学校で教えられている。
本稿では,ロマンシュ・イディオムの最初の並列コーパスについて述べる。
コーパスは291冊の校本に基づいており、5つのイディオムに匹敵する内容である。
自動アライメント手法を用いて,本書から207k個のマルチ並列セグメントを抽出し,合計で2M以上のトークンを抽出する。
小規模な人間による評価では、セグメントが非常に並列であることが確認されており、ロマシュイディオム間の機械翻訳のようなNLPアプリケーションに適したデータセットとなっている。
我々は、CC-BY-NC-SAライセンスの下で、データセットの並列かつ非整合バージョンをリリースし、データセットのサンプル上でLLMをトレーニングし、評価することで、機械翻訳の実用性を実証する。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Does mBERT understand Romansh? Evaluating word embeddings using word
alignment [0.0]
類似度に基づく単語アライメントモデル(SimAlign と Super-Align )と mBERT と XLM-R の単語埋め込みを,ドイツ語とロマンシュ語の並行文に組み合わせて検証する。
mBERTの埋め込みを使用して、両方のモデルがアライメントエラー率0.22に達し、fast_alignを上回っている。
また、ドイツ語とロマンシュ語の単語アライメントのための金の標準も提示する。
論文 参考訳(メタデータ) (2023-06-14T19:00:12Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。