論文の概要: Adapting Multilingual Embedding Models to Historical Luxembourgish
- arxiv url: http://arxiv.org/abs/2502.07938v2
- Date: Wed, 19 Feb 2025 10:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:56:31.502935
- Title: Adapting Multilingual Embedding Models to Historical Luxembourgish
- Title(参考訳): 歴史的ルクセンブルク語への多言語埋め込みモデルの適用
- Authors: Andrianos Michail, Corina Julia Raclé, Juri Opitz, Simon Clematide,
- Abstract要約: 事前訓練された多言語モデル(典型的には現代テキストで評価される)は、OCRノイズと時代遅れの綴りによる歴史的デジタル化コンテンツによる課題に直面している。
歴史的ルクセンブルク語における言語間セマンティック検索における多言語埋め込みの利用について検討する。
- 参考スコア(独自算出の注目度): 5.474797258314828
- License:
- Abstract: The growing volume of digitized historical texts requires effective semantic search using text embeddings. However, pre-trained multilingual models, typically evaluated on contemporary texts, face challenges with historical digitized content due to OCR noise and outdated spellings. We explore the use of multilingual embeddings for cross-lingual semantic search on historical Luxembourgish, a low-resource language. We collect historical Luxembourgish news articles spanning various time periods and use GPT-4o to segment and translate them into closely related languages, creating 20,000 parallel training sentences per language pair. We further create a historical bitext mining evaluation set and find that these models struggle to perform cross-lingual search on historical Luxembourgish. To address this, we propose a simple adaptation method using in-domain training data, achieving up to 98\% accuracy in cross-lingual evaluations. We release our adapted models and historical Luxembourgish-German/French bitexts to support further research.
- Abstract(参考訳): デジタル化された歴史的テキストの量の増加は、テキスト埋め込みを用いた効果的な意味探索を必要とする。
しかし、現代のテキストで評価される事前訓練された多言語モデルでは、OCRノイズと時代遅れの綴りによる歴史的デジタル化コンテンツによる課題に直面している。
低リソース言語であるLuxembourgishの言語間セマンティック検索における多言語埋め込みの利用について検討する。
我々は,様々な期間にまたがる歴史的ルクセンブルクのニュース記事を収集し,GPT-4oを用いて関連言語に分類し翻訳し,言語ペアごとに20,000の並行訓練文を生成する。
さらに,このモデルが歴史的ルクセンブルク語における言語横断的な探索に苦慮していることを示す。
そこで本研究では,言語間評価において,最大98%の精度を達成できる,ドメイン内トレーニングデータを用いた簡単な適応手法を提案する。
我々は、さらなる研究を支援するため、適応されたモデルと歴史的ルクセンブルク・ドイツ・フランスのビットテックスをリリースする。
関連論文リスト
- Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy [7.59001382786429]
本稿では,Luxembourgishに着目した低表現言語のための言語モデル開発における課題について論じる。
本稿では,限定されたルクセンブルク語データと同等量のドイツ語とフランス語データを組み合わせた,T5アーキテクチャに基づく新しいテキスト生成モデルを提案する。
評価のために,Luxembourgishにとって最初のテキスト生成ベンチマークであるLuxGenを紹介する。
論文 参考訳(メタデータ) (2024-12-12T16:23:12Z) - MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge
Distillation [0.0]
我々は、多言語知識蒸留手法を用いてBERTモデルを訓練し、古代ギリシア語テキストの文埋め込みを生成する。
我々は,古代ギリシアの文書を英訳と整合させる文埋め込みアライメント法を用いて,並列文データセットを構築した。
我々は,翻訳検索,意味的類似性,意味的検索タスクのモデルを評価する。
論文 参考訳(メタデータ) (2023-08-24T23:38:44Z) - hmBERT: Historical Multilingual Language Models for Named Entity
Recognition [0.6226609932118123]
我々は、人物、場所、組織を史料で特定するためにNERに取り組む。
本研究では, 歴史的ドイツ語, 英語, フランス語, スウェーデン語, フィンランド語について, 大規模な歴史的言語モデルを訓練することによってNERに取り組む。
論文 参考訳(メタデータ) (2022-05-31T07:30:33Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文 参考訳(メタデータ) (2021-01-26T13:00:07Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。