論文の概要: Computational Detection of Intertextual Parallels in Biblical Hebrew: A Benchmark Study Using Transformer-Based Language Models
- arxiv url: http://arxiv.org/abs/2506.24117v1
- Date: Mon, 30 Jun 2025 17:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.188232
- Title: Computational Detection of Intertextual Parallels in Biblical Hebrew: A Benchmark Study Using Transformer-Based Language Models
- Title(参考訳): 聖書ヘブライ語における文間パラレルの計算的検出:トランスフォーマーに基づく言語モデルを用いたベンチマーク研究
- Authors: David M. Smiley,
- Abstract要約: 本研究では,ヘブライ語聖書のテキストパラレルを検出するために,E5,AlephBERT,MPNet,LaBSEなどの事前学習言語モデルの有効性を評価する。
E5とAlephBERTは、E5は並列検出に優れ、AlephBERTはより強力な非並列分化を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying parallel passages in biblical Hebrew is foundational in biblical scholarship for uncovering intertextual relationships. Traditional methods rely on manual comparison, which is labor-intensive and prone to human error. This study evaluates the potential of pre-trained transformer-based language models, including E5, AlephBERT, MPNet, and LaBSE, for detecting textual parallels in the Hebrew Bible. Focusing on known parallels between the books of Samuel/Kings and Chronicles, I assessed each model's capability to generate word embeddings that delineate parallel from non-parallel passages. Utilizing cosine similarity and Wasserstein Distance measures, I found that E5 and AlephBERT show significant promise, with E5 excelling in parallel detection and AlephBERT demonstrating stronger non-parallel differentiation. These findings indicate that pre-trained models can enhance the efficiency and accuracy of detecting intertextual parallels in ancient texts, suggesting broader applications for ancient language studies.
- Abstract(参考訳): 聖書ヘブライ語における平行通路の同定は、テクスト間の関係を明らかにするための聖書の学問の基礎となっている。
従来の手法は手作業による比較に依存しており、これは労働集約的であり、ヒューマンエラーの傾向が強い。
本研究では,E5,AlephBERT,MPNet,LaBSEなど,事前学習されたトランスフォーマーベース言語モデルによるヘブライ語聖書のテキストパラレルの検出の可能性を評価する。
サミュエル・キングス(Samuel/Kings)とクロニクルズ(Chronicles)の書物間の既知の並列性に着目し、パラレルでない通路から平行性を示す単語埋め込みを生成する各モデルの能力を評価した。
E5とAlephBERTは並列検出に優れ,AlephBERTはより強力な非並列分化を示した。
これらの結果から,事前学習モデルにより,古文書におけるテキスト間並列検出の効率性と精度が向上し,古代言語研究への広範な応用が示唆された。
関連論文リスト
- VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - On the Role of Parallel Data in Cross-lingual Transfer Learning [30.737717433111776]
本稿では, 教師なし機械翻訳を用いて合成並列データを生成する方法について検討する。
モデルが生成した並列データでさえ、下流のタスクに役立ちます。
以上の結果から,既存の多言語モデルではモノリンガルデータの潜在能力を活用できないことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T11:23:04Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。