論文の概要: Targum -- A Multilingual New Testament Translation Corpus
- arxiv url: http://arxiv.org/abs/2602.09724v1
- Date: Tue, 10 Feb 2026 12:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.531987
- Title: Targum -- A Multilingual New Testament Translation Corpus
- Title(参考訳): Targum - 多言語対応の新約聖書翻訳コーパス
- Authors: Maciej Rapacz, Aleksander Smywiński-Pohl,
- Abstract要約: 657の新約聖書の多言語コーパスを導入し、そのうち352語は独特で、英語(合計396語から208語)、フランス語(78語から41語)、イタリア語(33語から18語)、ポーランド語(48語から30語)、スペイン語(102語から55語)の5言語で前例のない深さである。
各翻訳にはメタデータが手動でアノテートされ、そのテキストを作業の標準化された識別子、その特定のエディション、その修正年をマップする。
この標準化により、研究者は自身のニーズに対して「普遍性」を定義することができる。
- 参考スコア(独自算出の注目度): 46.390064640459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many European languages possess rich biblical translation histories, yet existing corpora - in prioritizing linguistic breadth - often fail to capture this depth. To address this gap, we introduce a multilingual corpus of 657 New Testament translations, of which 352 are unique, with unprecedented depth in five languages: English (208 unique versions from 396 total), French (41 from 78), Italian (18 from 33), Polish (30 from 48), and Spanish (55 from 102). Aggregated from 12 online biblical libraries and one preexisting corpus, each translation is manually annotated with metadata that maps the text to a standardized identifier for the work, its specific edition, and its year of revision. This canonicalization empowers researchers to define "uniqueness" for their own needs: they can perform micro-level analyses on translation families, such as the KJV lineage, or conduct macro-level studies by deduplicating closely related texts. By providing the first resource designed for such flexible, multilevel analysis, our corpus establishes a new benchmark for the quantitative study of translation history.
- Abstract(参考訳): 多くのヨーロッパの言語は豊富な聖書の翻訳の歴史を持っているが、既存のコーパス(言語的な幅を優先する)は、しばしばこの深さを捉えない。
このギャップに対処するために、657の新約聖書翻訳の多言語コーパスを導入し、そのうち352は独特で、英語(合計396から208の独特なバージョン)、フランス語(78から41)、イタリア語(33から18)、ポーランド語(48から30)、スペイン語(102から55)の5つの言語で前例のない深さを持つ。
12のオンライン聖書ライブラリと1つの既存のコーパスから集約された各翻訳には、作業の標準化された識別子、その特定のエディション、そしてその修正年をマップするメタデータが手作業でアノテートされる。
この標準化により、研究者は自身のニーズに対して「一様性」を定義することができ、KJV系統のような翻訳ファミリーのマイクロレベル解析や、近縁なテキストを重複させることでマクロレベルの研究を行うことができる。
このような柔軟で多レベルな分析のために設計された最初のリソースを提供することにより、私たちのコーパスは翻訳履歴の定量的研究のための新しいベンチマークを確立する。
関連論文リスト
- Efficacy of ByT5 in Multilingual Translation of Biblical Texts for Underrepresented Languages [3.313876945324241]
本研究では,ByT5をベースとした多言語翻訳モデルの開発と評価を行った。
我々は、文字ベースおよび形態学的に豊かな言語の複雑なニュアンスを捉えるために、モデルを訓練した。
BLEUスコアで測定し,サンプル翻訳を補足した結果,本モデルが神文へのアクセシビリティを向上させることが示唆された。
論文 参考訳(メタデータ) (2024-05-22T05:12:35Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - HELFI: a Hebrew-Greek-Finnish Parallel Bible Corpus with Cross-Lingual
Morpheme Alignment [0.0]
205年前、形態学的にヘブライ・フィンランド語とギリシア・フィンランド語が手作業で作られた。
本稿では,元来の一目的データベース作成から始まる非自明な編集プロセスについて述べる。
無償のテキストエディションとアノテーションのみを使用して、再構築で終了する。
論文 参考訳(メタデータ) (2020-03-16T22:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。