論文の概要: Latin BERT: A Contextual Language Model for Classical Philology
- arxiv url: http://arxiv.org/abs/2009.10053v1
- Date: Mon, 21 Sep 2020 17:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:49:29.576521
- Title: Latin BERT: A Contextual Language Model for Classical Philology
- Title(参考訳): ラテンBERT:古典哲学のための文脈言語モデル
- Authors: David Bamman and Patrick J. Burns
- Abstract要約: 我々はラテン言語のための文脈言語モデルである Latin BERT を提示する。
古典期から21世紀にかけての様々な資料から642.7万語で訓練された。
- 参考スコア(独自算出の注目度): 7.513100214864645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Latin BERT, a contextual language model for the Latin language,
trained on 642.7 million words from a variety of sources spanning the Classical
era to the 21st century. In a series of case studies, we illustrate the
affordances of this language-specific model both for work in natural language
processing for Latin and in using computational methods for traditional
scholarship: we show that Latin BERT achieves a new state of the art for
part-of-speech tagging on all three Universal Dependency datasets for Latin and
can be used for predicting missing text (including critical emendations); we
create a new dataset for assessing word sense disambiguation for Latin and
demonstrate that Latin BERT outperforms static word embeddings; and we show
that it can be used for semantically-informed search by querying contextual
nearest neighbors. We publicly release trained models to help drive future work
in this space.
- Abstract(参考訳): 我々はラテン語の文脈言語モデルである Latin BERT を、古典期から21世紀にかけての様々な情報源から642.7万語で訓練した。
In a series of case studies, we illustrate the affordances of this language-specific model both for work in natural language processing for Latin and in using computational methods for traditional scholarship: we show that Latin BERT achieves a new state of the art for part-of-speech tagging on all three Universal Dependency datasets for Latin and can be used for predicting missing text (including critical emendations); we create a new dataset for assessing word sense disambiguation for Latin and demonstrate that Latin BERT outperforms static word embeddings; and we show that it can be used for semantically-informed search by querying contextual nearest neighbors.
この分野での今後の作業を支援するために、トレーニングされたモデルを公開しています。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - LiMe: a Latin Corpus of Late Medieval Criminal Sentences [39.26357402982764]
本稿では,Libri sententiarum potestatis Mediolaniという一連の中世写本から抽出された325の文書のコーパスであるLiMeデータセットについて述べる。
論文 参考訳(メタデータ) (2024-04-19T12:06:28Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文 参考訳(メタデータ) (2020-05-21T17:16:53Z) - Phonetic and Visual Priors for Decipherment of Informal Romanization [37.77170643560608]
観測されたロマライズされたテキストからオリジナルの非ラテン文字を解読するためのノイズチャネルWFSTカスケードモデルを提案する。
私たちは、エジプトのアラビア語とロシア語という2つの言語のロマン化データに基づいて、モデルを直接訓練します。
文字マッピングにおける音声と視覚の先行性による帰納的バイアスを加えることで、両方の言語におけるモデルの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2020-05-05T21:57:27Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。