Fugu-MT 論文翻訳(概要): Adapting Multilingual Embedding Models to Historical Luxembourgish

論文の概要: Adapting Multilingual Embedding Models to Historical Luxembourgish

arxiv url: http://arxiv.org/abs/2502.07938v2
Date: Wed, 19 Feb 2025 10:38:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 13:29:36.050114
Title: Adapting Multilingual Embedding Models to Historical Luxembourgish
Title（参考訳）: 歴史的ルクセンブルク語への多言語埋め込みモデルの適用
Authors: Andrianos Michail, Corina Julia Raclé, Juri Opitz, Simon Clematide,
Abstract要約: 事前訓練された多言語モデル(典型的には現代テキストで評価される)は、OCRノイズと時代遅れの綴りによる歴史的デジタル化コンテンツによる課題に直面している。歴史的ルクセンブルク語における言語間セマンティック検索における多言語埋め込みの利用について検討する。
参考スコア（独自算出の注目度）: 5.474797258314828
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The growing volume of digitized historical texts requires effective semantic search using text embeddings. However, pre-trained multilingual models, typically evaluated on contemporary texts, face challenges with historical digitized content due to OCR noise and outdated spellings. We explore the use of multilingual embeddings for cross-lingual semantic search on historical Luxembourgish, a low-resource language. We collect historical Luxembourgish news articles spanning various time periods and use GPT-4o to segment and translate them into closely related languages, creating 20,000 parallel training sentences per language pair. We further create a historical bitext mining evaluation set and find that these models struggle to perform cross-lingual search on historical Luxembourgish. To address this, we propose a simple adaptation method using in-domain training data, achieving up to 98\% accuracy in cross-lingual evaluations. We release our adapted models and historical Luxembourgish-German/French bitexts to support further research.
Abstract（参考訳）: デジタル化された歴史的テキストの量の増加は、テキスト埋め込みを用いた効果的な意味探索を必要とする。しかし、現代のテキストで評価される事前訓練された多言語モデルでは、OCRノイズと時代遅れの綴りによる歴史的デジタル化コンテンツによる課題に直面している。低リソース言語であるLuxembourgishの言語間セマンティック検索における多言語埋め込みの利用について検討する。我々は,様々な期間にまたがる歴史的ルクセンブルクのニュース記事を収集し,GPT-4oを用いて関連言語に分類し翻訳し,言語ペアごとに20,000の並行訓練文を生成する。さらに,このモデルが歴史的ルクセンブルク語における言語横断的な探索に苦慮していることを示す。そこで本研究では,言語間評価において,最大98%の精度を達成できる,ドメイン内トレーニングデータを用いた簡単な適応手法を提案する。我々は、さらなる研究を支援するため、適応されたモデルと歴史的ルクセンブルク・ドイツ・フランスのビットテックスをリリースする。

関連論文リスト

mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文参考訳（メタデータ） (2025-01-31T16:24:46Z)
Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy [7.59001382786429]
本稿では,Luxembourgishに着目した低表現言語のための言語モデル開発における課題について論じる。本稿では,限定されたルクセンブルク語データと同等量のドイツ語とフランス語データを組み合わせた,T5アーキテクチャに基づく新しいテキスト生成モデルを提案する。評価のために,Luxembourgishにとって最初のテキスト生成ベンチマークであるLuxGenを紹介する。
論文参考訳（メタデータ） (2024-12-12T16:23:12Z)
A Comparative Analysis of Bilingual and Trilingual Wav2Vec Models for Automatic Speech Recognition in Multilingual Oral History Archives [2.3592914313389257]
我々は,単言語Wav2Vec 2.0モデルと様々な多言語モデルを比較し,音声認識性能の向上を図る。以上の結果から,単言語音声認識モデルは多言語モデルよりも優れていることが示唆された。
論文参考訳（メタデータ） (2024-07-24T11:03:47Z)
A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts [8.405938712823563]
本稿では,3000以上の文書からなる多レベル多言語テキスト分類データセットを提案する。このデータセットは19世紀のトルコ語とロシア語の文学的および批判的なテキストを特徴としている。このデータセットに大規模言語モデル(LLM)を適用した最初の研究である。
論文参考訳（メタデータ） (2024-07-21T12:14:45Z)
MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。 mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文参考訳（メタデータ） (2024-03-12T03:35:17Z)
Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge Distillation [0.0]
我々は、多言語知識蒸留手法を用いてBERTモデルを訓練し、古代ギリシア語テキストの文埋め込みを生成する。我々は,古代ギリシアの文書を英訳と整合させる文埋め込みアライメント法を用いて,並列文データセットを構築した。我々は,翻訳検索,意味的類似性,意味的検索タスクのモデルを評価する。
論文参考訳（メタデータ） (2023-08-24T23:38:44Z)
Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。我々のモデルは、$N$言語で並列データを操作する。本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文参考訳（メタデータ） (2022-12-21T02:41:40Z)
hmBERT: Historical Multilingual Language Models for Named Entity Recognition [0.6226609932118123]
我々は、人物、場所、組織を史料で特定するためにNERに取り組む。本研究では, 歴史的ドイツ語, 英語, フランス語, スウェーデン語, フィンランド語について, 大規模な歴史的言語モデルを訓練することによってNERに取り組む。
論文参考訳（メタデータ） (2022-05-31T07:30:33Z)
Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。単言語,多言語,言語横断の3種類の実験を行った。本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文参考訳（メタデータ） (2022-04-19T16:23:07Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文参考訳（メタデータ） (2022-02-18T22:17:22Z)
Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文参考訳（メタデータ） (2021-01-26T13:00:07Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)
Learning Contextualised Cross-lingual Word Embeddings and Alignments for Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文参考訳（メタデータ） (2020-10-27T22:24:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。