論文の概要: Forging GEMs: Advancing Greek NLP through Quality-Based Corpus Curation
- arxiv url: http://arxiv.org/abs/2510.20002v2
- Date: Fri, 24 Oct 2025 11:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.246532
- Title: Forging GEMs: Advancing Greek NLP through Quality-Based Corpus Curation
- Title(参考訳): GEMのフォーク: 品質ベースのコーパスキュレーションによるギリシャのNLPの向上
- Authors: Alexandra Apostolopoulou, Konstantinos Kanaris, Athanasios Koursaris, Dimitris Tsakalidis, George Domalis, Ioannis E. Livieris,
- Abstract要約: ギリシャの埋め込みモデル(GEM)は、アーキテクチャの多様性とデータキュレーションの強化を通じて制限に対処するために開発された。
いくつかの大規模で精巧にキュレートされたコーパスで訓練されたモデルのファミリー。
最初のバイリンガル・ギリシャ語・英語の埋め込みモデルは、言語間法的な応用に適合した。
- 参考スコア(独自算出の注目度): 37.2909720705691
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The advancement of natural language processing for morphologically rich and moderately-resourced languages like Modern Greek has been hindered by architectural stagnation, data scarcity, and limited context processing capabilities, particularly in specialized domains such as law. In this work, we propose the Greek Embedding Models (GEMs), a new family of transformer-based language models, specifically developed to address these limitations through architectural diversity and enhanced data curation. The proposed family of models are trained on several large-scale, meticulously curated corpora, encompassing both comprehensive general-domain datasets and specialized legal collections, addressing the persistent data scarcity that has impeded Greek language modeling advancement. The proposed quality-based corpus curation methodology incorporates extensive preprocessing pipelines, sophisticated deduplication strategies and targeted repetition of high-quality legal sub-corpora to enhance domain adaptation. The GEMs family comprises both established architectures (RoBERTa and Longformer) and advanced models not previously applied to Greek (ELECTRA, ConvBERT, and ModernBERT), providing comprehensive coverage of modern transformer designs. Additionally, we introduce the first bilingual Greek-English embedding models tailored for cross-lingual legal applications. Comprehensive evaluation across three core natural language understanding benchmarks demonstrates that the proposed GEM-RoBERTa and GEM-ConvBERT achieve statistically significant performance improvements over established state-of-the-art models, with accuracy gains of up to 3.6\% while conducted statistical analysis using Friedman Aligned-Ranks and Finner post-hoc tests confirms the superiority of our approach across multiple evaluation metrics.
- Abstract(参考訳): 現代ギリシア語のような形態学的に豊かで適度に調達された言語に対する自然言語処理の進歩は、特に法律のような専門分野において、建築上の停滞、データ不足、限られた文脈処理能力によって妨げられている。
本研究では,トランスフォーマーに基づく新しい言語モデルであるギリシャ語埋め込みモデル (GEMs) を提案する。
提案されたモデルのファミリーは、包括的な汎用ドメインデータセットと専門的な法的収集の両方を含む、大規模で慎重にキュレートされたコーパスで訓練されており、ギリシャ語のモデリングの進歩を妨げる永続的なデータ不足に対処している。
提案した品質ベースのコーパスキュレーション手法は、広範な前処理パイプライン、洗練された重複戦略、ドメイン適応を強化するための高品質な法定サブコーパスの反復を対象とする。
GEMsファミリーは、確立されたアーキテクチャ(RoBERTaとLongformer)と、ギリシャ語(ELECTRA、ConvBERT、ModernBERT)には適用されていない高度なモデルの両方で構成されており、現代のトランスフォーマーの設計を包括的にカバーしている。
さらに,バイリンガルなギリシア語と英語の埋め込みモデルを導入する。
GEM-RoBERTa と GEM-ConvBERT は,Friedman Aligned-Ranks と Finner Post-hoc test を用いて統計的解析を行った結果,複数の評価指標によるアプローチの優位性が確認された。
関連論文リスト
- Speed Always Wins: A Survey on Efficient Architectures for Large Language Models [51.817121227562964]
大規模言語モデル(LLM)は、言語理解、生成、推論、マルチモーダルモデルの能力境界の押し付けにおいて、素晴らしい結果をもたらしている。
トランスフォーマーモデルは、現代のLLMの基礎として、優れたスケーリング特性を備えた強力なベースラインを提供する。
従来のトランスフォーマーアーキテクチャは、相当な計算を必要とし、大規模なトレーニングと実践的なデプロイメントに重大な障害を生じさせる。
論文 参考訳(メタデータ) (2025-08-13T14:13:46Z) - A Survey of Model Architectures in Information Retrieval [59.61734783818073]
2019年から現在までの期間は、情報検索(IR)と自然言語処理(NLP)における最大のパラダイムシフトの1つとなっている。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
今後の課題と今後の方向性について、先見的な議論で締めくくります。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - GreekT5: A Series of Greek Sequence-to-Sequence Models for News
Summarization [0.0]
本稿では,ギリシャのニュース記事を対象とした新しいTSモデルを提案する。
提案したモデルは、ギリシャのBARTに対して同じデータセットで徹底的に評価された。
評価結果から, 提案したモデルのほとんどは, 様々な評価指標において, ギリシャ語BARTを著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-13T21:33:12Z) - Exploring Large Language Models for Classical Philology [17.856304057963776]
我々は古代ギリシア語のための4つの言語モデルを作成し、2つの次元に沿って異なる。
補題化を含む形態的および構文的タスクに関する全てのモデルを評価する。
その結果、私たちのモデルはSoTAよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T05:21:02Z) - GreekBART: The First Pretrained Greek Sequence-to-Sequence Model [13.429669368275318]
我々は,BARTベースアーキテクチャをベースとした最初のSeq2SeqモデルであるA GreekBARTを紹介し,大規模なギリシャ語コーパスを事前訓練する。
我々は,BART-random, Greek-BERT, XLM-Rを様々な識別課題で評価し,比較した。
論文 参考訳(メタデータ) (2023-04-03T10:48:51Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - Multi-granular Legal Topic Classification on Greek Legislation [4.09134848993518]
ギリシア語で書かれた法律文書を分類する作業について研究する。
ギリシャの法律文書分類のタスクがオープンな研究プロジェクトで検討されたのはこれが初めてである。
論文 参考訳(メタデータ) (2021-09-30T17:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。