論文の概要: Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2308.13116v1
- Date: Thu, 24 Aug 2023 23:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 15:31:14.592171
- Title: Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge
Distillation
- Title(参考訳): 多言語知識蒸留を用いた古代ギリシア語の文埋め込みモデル
- Authors: Kevin Krahn, Derrick Tate, Andrew C. Lamicela
- Abstract要約: 我々は、多言語知識蒸留手法を用いてBERTモデルを訓練し、古代ギリシア語テキストの文埋め込みを生成する。
我々は,古代ギリシアの文書を英訳と整合させる文埋め込みアライメント法を用いて,並列文データセットを構築した。
我々は,翻訳検索,意味的類似性,意味的検索タスクのモデルを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual language models have been trained on Classical languages,
including Ancient Greek and Latin, for tasks such as lemmatization,
morphological tagging, part of speech tagging, authorship attribution, and
detection of scribal errors. However, high-quality sentence embedding models
for these historical languages are significantly more difficult to achieve due
to the lack of training data. In this work, we use a multilingual knowledge
distillation approach to train BERT models to produce sentence embeddings for
Ancient Greek text. The state-of-the-art sentence embedding approaches for
high-resource languages use massive datasets, but our distillation approach
allows our Ancient Greek models to inherit the properties of these models while
using a relatively small amount of translated sentence data. We build a
parallel sentence dataset using a sentence-embedding alignment method to align
Ancient Greek documents with English translations, and use this dataset to
train our models. We evaluate our models on translation search, semantic
similarity, and semantic retrieval tasks and investigate translation bias. We
make our training and evaluation datasets freely available at
https://github.com/kevinkrahn/ancient-greek-datasets .
- Abstract(参考訳): 文脈言語モデルは古代ギリシア語やラテン語など古典言語で訓練され、補題化、形態素タグ付け、音声タグ付けの一部、著者の帰属、文字ミスの検出などが行われている。
しかし、これらの歴史的言語に対する高品質な文埋め込みモデルは、訓練データがないため、はるかに困難である。
本研究では,古代ギリシア語テキストの文埋め込みを生成するために,多言語知識蒸留手法を用いてBERTモデルを訓練する。
高リソース言語に対する最先端の文埋め込みアプローチは、大量のデータセットを使用するが、我々の蒸留アプローチは、我々の古代ギリシアのモデルが比較的少量の翻訳文データを使用しながら、これらのモデルの特性を継承することを可能にする。
文埋め込みアライメント法を用いて並列文データセットを構築し、古代ギリシアの文書を英語の翻訳と整列させ、このデータセットを使ってモデルを訓練する。
翻訳検索,意味的類似性,意味的検索タスクに関するモデルを評価し,翻訳バイアスを調査した。
トレーニングと評価データセットはhttps://github.com/kevinkrahn/ancient-greek-datasetsで無償公開しています。
関連論文リスト
- Exploring Large Language Models for Classical Philology [17.856304057963776]
我々は古代ギリシア語のための4つの言語モデルを作成し、2つの次元に沿って異なる。
補題化を含む形態的および構文的タスクに関する全てのモデルを評価する。
その結果、私たちのモデルはSoTAよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T05:21:02Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Training Effective Neural Sentence Encoders from Automatically Mined
Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。
本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。
文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文 参考訳(メタデータ) (2022-07-26T09:08:56Z) - Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling
Approach [8.00388161728995]
我々は、古代メソポタミアの文書の文字化を前提とした、欠落したテキストを完遂するモデルを提案する。
タブレットの劣化のため、学者はテキストの欠落部分を手作業で埋めるために文脈的な手がかりに頼っていることが多い。
論文 参考訳(メタデータ) (2021-09-09T18:58:14Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。