論文の概要: Exploring Large Language Models for Classical Philology
- arxiv url: http://arxiv.org/abs/2305.13698v1
- Date: Tue, 23 May 2023 05:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:56:01.843425
- Title: Exploring Large Language Models for Classical Philology
- Title(参考訳): 古典哲学のための大規模言語モデル探索
- Authors: Frederick Riemenschneider and Anette Frank
- Abstract要約: 我々は古代ギリシア語のための4つの言語モデルを作成し、2つの次元に沿って異なる。
補題化を含む形態的および構文的タスクに関する全てのモデルを評価する。
その結果、私たちのモデルはSoTAよりも大幅に改善されていることがわかった。
- 参考スコア(独自算出の注目度): 17.856304057963776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in NLP have led to the creation of powerful language models
for many languages including Ancient Greek and Latin. While prior work on
Classical languages unanimously uses BERT, in this work we create four language
models for Ancient Greek that vary along two dimensions to study their
versatility for tasks of interest for Classical languages: we explore (i)
encoder-only and encoder-decoder architectures using RoBERTa and T5 as strong
model types, and create for each of them (ii) a monolingual Ancient Greek and a
multilingual instance that includes Latin and English. We evaluate all models
on morphological and syntactic tasks, including lemmatization, which
demonstrates the added value of T5's decoding abilities. We further define two
probing tasks to investigate the knowledge acquired by models pre-trained on
Classical texts. Our experiments provide the first benchmarking analysis of
existing models of Ancient Greek. Results show that our models provide
significant improvements over the SoTA. The systematic analysis of model types
can inform future research in designing language models for Classical
languages, including the development of novel generative tasks. We make all our
models available as community resources, along with a large curated
pre-training corpus for Ancient Greek, to support the creation of a larger,
comparable model zoo for Classical Philology. Our models and resources are
available at https://github.com/Heidelberg-NLP/ancient-language-models.
- Abstract(参考訳): NLPの最近の進歩は、古代ギリシア語やラテン語を含む多くの言語のための強力な言語モデルの作成につながった。
古典言語に関する以前の研究は、全会一致でBERTを使用していたが、この研究では、2次元に沿って異なる古代ギリシア語のための4つの言語モデルを作成し、古典言語に興味のあるタスクに対するそれらの汎用性を研究する。
(i)RoBERTaとT5を強力なモデル型として用いたエンコーダのみおよびエンコーダデコーダアーキテクチャ
(ii)一言語古代ギリシア語で、ラテン語と英語を含む多言語例。
我々は,T5の復号能力の付加価値を示す補題化を含む,形態的および構文的タスクに関するすべてのモデルを評価する。
さらに,古典テキストに事前学習したモデルが獲得した知識を調査するための2つの探索タスクも定義する。
我々の実験は、古代ギリシアのモデルの最初のベンチマーク分析を提供する。
その結果, sotaに対して, モデルによる大幅な改善が得られた。
モデルタイプの体系的分析は、新しい生成タスクの開発を含む、古典言語のための言語モデルを設計する将来の研究に役立つ。
私たちは、すべてのモデルをコミュニティのリソースとして利用でき、また古代ギリシアのための大規模な訓練済みのコーパスも提供し、より大きく、比較可能な古典哲学のためのモデル動物園の創設を支援しています。
私たちのモデルとリソースはhttps://github.com/heidelberg-nlp/ancient-language-modelsで利用可能です。
関連論文リスト
- Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining [4.38070902806635]
クロアチア語、セルビア語、ボスニア語、モンテネグロ語のベンチマークを設定しました。
我々は、利用可能な多言語モデルの追加事前学習により、専用のin-scratchモデルに匹敵する性能が得られることを示す。
また、Slovenianの場合、隣接する言語は、最終モデルの性能にほとんど、あるいは全く損なわない追加の事前訓練に含めることができることを示す。
論文 参考訳(メタデータ) (2024-04-08T11:55:44Z) - Formal Aspects of Language Modeling [74.16212987886013]
大規模言語モデルは最も一般的なNLP発明の1つとなっている。
これらのノートは、ETH Z "urich course on large language model" の理論的部分の伴奏である。
論文 参考訳(メタデータ) (2023-11-07T20:21:42Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (2023-09-28T17:07:49Z) - Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge
Distillation [0.0]
我々は、多言語知識蒸留手法を用いてBERTモデルを訓練し、古代ギリシア語テキストの文埋め込みを生成する。
我々は,古代ギリシアの文書を英訳と整合させる文埋め込みアライメント法を用いて,並列文データセットを構築した。
我々は,翻訳検索,意味的類似性,意味的検索タスクのモデルを評価する。
論文 参考訳(メタデータ) (2023-08-24T23:38:44Z) - GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts [11.289265479095956]
GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-07-11T15:44:01Z) - GreekBART: The First Pretrained Greek Sequence-to-Sequence Model [13.429669368275318]
我々は,BARTベースアーキテクチャをベースとした最初のSeq2SeqモデルであるA GreekBARTを紹介し,大規模なギリシャ語コーパスを事前訓練する。
我々は,BART-random, Greek-BERT, XLM-Rを様々な識別課題で評価し,比較した。
論文 参考訳(メタデータ) (2023-04-03T10:48:51Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。