論文の概要: Latin BERT: A Contextual Language Model for Classical Philology
- arxiv url: http://arxiv.org/abs/2009.10053v1
- Date: Mon, 21 Sep 2020 17:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:49:29.576521
- Title: Latin BERT: A Contextual Language Model for Classical Philology
- Title(参考訳): ラテンBERT:古典哲学のための文脈言語モデル
- Authors: David Bamman and Patrick J. Burns
- Abstract要約: 我々はラテン言語のための文脈言語モデルである Latin BERT を提示する。
古典期から21世紀にかけての様々な資料から642.7万語で訓練された。
- 参考スコア(独自算出の注目度): 7.513100214864645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Latin BERT, a contextual language model for the Latin language,
trained on 642.7 million words from a variety of sources spanning the Classical
era to the 21st century. In a series of case studies, we illustrate the
affordances of this language-specific model both for work in natural language
processing for Latin and in using computational methods for traditional
scholarship: we show that Latin BERT achieves a new state of the art for
part-of-speech tagging on all three Universal Dependency datasets for Latin and
can be used for predicting missing text (including critical emendations); we
create a new dataset for assessing word sense disambiguation for Latin and
demonstrate that Latin BERT outperforms static word embeddings; and we show
that it can be used for semantically-informed search by querying contextual
nearest neighbors. We publicly release trained models to help drive future work
in this space.
- Abstract(参考訳): 我々はラテン語の文脈言語モデルである Latin BERT を、古典期から21世紀にかけての様々な情報源から642.7万語で訓練した。
In a series of case studies, we illustrate the affordances of this language-specific model both for work in natural language processing for Latin and in using computational methods for traditional scholarship: we show that Latin BERT achieves a new state of the art for part-of-speech tagging on all three Universal Dependency datasets for Latin and can be used for predicting missing text (including critical emendations); we create a new dataset for assessing word sense disambiguation for Latin and demonstrate that Latin BERT outperforms static word embeddings; and we show that it can be used for semantically-informed search by querying contextual nearest neighbors.
この分野での今後の作業を支援するために、トレーニングされたモデルを公開しています。
関連論文リスト
- Graecia capta ferum victorem cepit. Detecting Latin Allusions to Ancient
Greek Literature [23.786649328915097]
本稿では古典哲学に適した三言語文文モデルSPhilBERTaを紹介する。
古代ギリシア語、ラテン語、英語にまたがる言語間の意味理解と同一の文の同定に優れる。
我々は、英語のテキストを自動的に古代ギリシア語に翻訳することで、新しいトレーニングデータを生成する。
論文 参考訳(メタデータ) (2023-08-23T08:54:05Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic
Analysis [3.2851864672627618]
本稿では,英語のバランスを保ったコーパスに基づいて,事前学習したBERTベースの言語モデルHistBERTを提案する。
単語類似性および意味変化解析における有望な結果を報告する。
論文 参考訳(メタデータ) (2022-02-08T02:53:48Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文 参考訳(メタデータ) (2020-05-21T17:16:53Z) - Phonetic and Visual Priors for Decipherment of Informal Romanization [37.77170643560608]
観測されたロマライズされたテキストからオリジナルの非ラテン文字を解読するためのノイズチャネルWFSTカスケードモデルを提案する。
私たちは、エジプトのアラビア語とロシア語という2つの言語のロマン化データに基づいて、モデルを直接訓練します。
文字マッピングにおける音声と視覚の先行性による帰納的バイアスを加えることで、両方の言語におけるモデルの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2020-05-05T21:57:27Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。