論文の概要: A State-of-the-Art Morphosyntactic Parser and Lemmatizer for Ancient Greek
- arxiv url: http://arxiv.org/abs/2410.12055v1
- Date: Tue, 15 Oct 2024 20:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:54.456968
- Title: A State-of-the-Art Morphosyntactic Parser and Lemmatizer for Ancient Greek
- Title(参考訳): 古代ギリシアのモルフォシンタクティック・パーサーとレマタイザー
- Authors: Giuseppe G. A. Celano,
- Abstract要約: 本稿では,古代ギリシアのテクストのテクスチャーとタイザーを同定するための6つのモデルの比較実験について述べる。
注釈付きテキストの主要なコレクションの正規化バージョンは、ランダムに文字を埋め込んだベースラインモデルのDithraxをトレーニングするために使用された。
ベイズ解析によれば、ディトラクスとトニケートの形態は実質的に等価であり、構文はグレタによるトニケートとレマタによって最もよく注釈される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents an experiment consisting in the comparison of six models to identify a state-of-the-art morphosyntactic parser and lemmatizer for Ancient Greek capable of annotating according to the Ancient Greek Dependency Treebank annotation scheme. A normalized version of the major collections of annotated texts was used to (i) train the baseline model Dithrax with randomly initialized character embeddings and (ii) fine-tune Trankit and four recent models pretrained on Ancient Greek texts, i.e., GreBERTa and PhilBERTa for morphosyntactic annotation and GreTA and PhilTa for lemmatization. A Bayesian analysis shows that Dithrax and Trankit annotate morphology practically equivalently, while syntax is best annotated by Trankit and lemmata by GreTa. The results of the experiment suggest that token embeddings are not sufficient to achieve high UAS and LAS scores unless they are coupled with a modeling strategy specifically designed to capture syntactic relationships. The dataset and best-performing models are made available online for reuse.
- Abstract(参考訳): 本稿では,古代ギリシア語 Dependency Treebank アノテーションスキームに則ってアノテート可能な,最先端のモルフォシンタクティック・パーサーとレムマタイザーを同定するための6つのモデルの比較実験を行った。
注釈付きテキストの主要なコレクションの正規化バージョンが使用された。
i) ランダムに初期化文字埋め込みでベースラインモデルDithraxをトレーニングし、
(II)微妙なトランニットと、古代ギリシアのテクストで事前訓練された4つのモデル、すなわちモルフォシンタクティックアノテーションのGreBERTaとPilBERTa、補修のためのGreTAとPhilTaである。
ベイズ解析によれば、ディトラックスとトランカタは実質的に同値であり、構文はトランカトとレマタがグレタに注釈を付けるのが最適である。
実験の結果, トークンの埋め込みは, 構文的関係を捉えるために特別に設計されたモデリング戦略と組み合わせない限り, 高いUASとLASのスコアを達成するには不十分であることが示唆された。
データセットと最高のパフォーマンスモデルは、オンラインで再利用することができる。
関連論文リスト
- GreekT5: A Series of Greek Sequence-to-Sequence Models for News
Summarization [0.0]
本稿では,ギリシャのニュース記事を対象とした新しいTSモデルを提案する。
提案したモデルは、ギリシャのBARTに対して同じデータセットで徹底的に評価された。
評価結果から, 提案したモデルのほとんどは, 様々な評価指標において, ギリシャ語BARTを著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-13T21:33:12Z) - Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge
Distillation [0.0]
我々は、多言語知識蒸留手法を用いてBERTモデルを訓練し、古代ギリシア語テキストの文埋め込みを生成する。
我々は,古代ギリシアの文書を英訳と整合させる文埋め込みアライメント法を用いて,並列文データセットを構築した。
我々は,翻訳検索,意味的類似性,意味的検索タスクのモデルを評価する。
論文 参考訳(メタデータ) (2023-08-24T23:38:44Z) - Exploring Large Language Models for Classical Philology [17.856304057963776]
我々は古代ギリシア語のための4つの言語モデルを作成し、2つの次元に沿って異なる。
補題化を含む形態的および構文的タスクに関する全てのモデルを評価する。
その結果、私たちのモデルはSoTAよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T05:21:02Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - Morphological Reinflection with Multiple Arguments: An Extended
Annotation schema and a Georgian Case Study [7.245355976804435]
我々はUniMorphの形態的データセットを拡張し、真の接尾辞を用いて複数の引数に一致する動詞をカバーする。
データセットは、既存のUniMorphデータセットの4倍のテーブルと6倍の動詞形式を持つ。
このベンチマークのカバレッジ、一貫性、解釈性を改善することが期待されている。
論文 参考訳(メタデータ) (2022-03-16T10:47:29Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。