論文の概要: Forging GEMs: Advancing Greek NLP through Quality-Based Corpus Curation and Specialized Pre-training
- arxiv url: http://arxiv.org/abs/2510.20002v1
- Date: Wed, 22 Oct 2025 20:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.821632
- Title: Forging GEMs: Advancing Greek NLP through Quality-Based Corpus Curation and Specialized Pre-training
- Title(参考訳): フォージングGEM: 品質ベースのコーパスキュレーションと特別予習によるギリシャNLPの向上
- Authors: Alexandra Apostolopoulou, Konstantinos Kanaris, Athanasios Koursaris, Dimitris Tsakalidis, George Domalis, Ioannis E. Livieris,
- Abstract要約: 本稿では,ギリシャ語のトランスフォーマーモデルの新たなファミリーであるギリシャ語埋め込みモデルについて述べる。
我々は、厳密で質の高いフィルタリングと前処理手法を強調した大規模なギリシアのコーパスの構築について詳述する。
法域に適合した最初のバイリンガル・ギリシャ語・英語の埋め込みモデルを提案する。
- 参考スコア(独自算出の注目度): 37.2909720705691
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The advancement of natural language processing for morphologically rich, moderately-resourced languages like Modern Greek is often hindered by a fragmented research landscape, a lack of architectural diversity and reliance on limited context-length models. This is particularly true in specialized, high-value domains such as law, where existing models are frequently confined to early transformer architectures with a restrictive 512-token window, insufficient for analyzing long legal documents. To address these challenges, this paper presents Greek Embedding Models, a new family of transformer models for Greek language built upon a foundation of extensive, quality-driven data curation. We detail the construction of several large-scale Greek corpora, emphasizing a rigorous, quality-based filtering and preprocessing methodology to create high-value training datasets from both general-domain and specialized legal sources. On this carefully curated foundation, we pre-train and systematically evaluate a diverse suite of modern architectures, which has not previously applied to Greek language, such as ELECTRA, ConvBERT and ModernBERT. Furthermore, we propose the first bilingual Greek-English Embedding Models tailored for the legal domain. The extensive experiments on downstream tasks demonstrate that the new class of models establish the effectiveness of the proposed approach, highlighting that the GEM-RoBERTa and GEM-ConvBERT models significantly outperform existing baselines.
- Abstract(参考訳): 現代ギリシア語のような形態学的に豊かで、適度に調達された言語に対する自然言語処理の進歩は、しばしば断片化された研究環境、アーキテクチャの多様性の欠如、限られた文脈長モデルへの依存によって妨げられている。
これは法のような特殊で高価値なドメインでは特に当てはまり、既存のモデルは制約のある512の窓を持つ初期のトランスフォーマーアーキテクチャにしばしば制限され、長い法律文書を解析するのに不十分である。
これらの課題に対処するために,本稿では,広範な品質駆動型データキュレーションの基礎の上に構築された,ギリシャ語用トランスフォーマーモデルの新たなファミリーである,ギリシャ語埋め込みモデルを提案する。
我々は,厳密で質の高いフィルタリングと事前処理手法を強調し,汎用ドメインと専門の法源から高価値なトレーニングデータセットを作成する,大規模なギリシアのコーパスの構築について詳述する。
この慎重に整備された基盤では,ELECTRAやConvBERT,ModernBERTといったギリシア語には適用されていない,近代建築の多様なスイートを事前訓練し,体系的に評価する。
さらに,法域に適したバイリンガルなギリシア語と英語の埋め込みモデルを提案する。
GEM-RoBERTaモデルとGEM-ConvBERTモデルが既存のベースラインを大幅に上回ることを示す。
関連論文リスト
- Speed Always Wins: A Survey on Efficient Architectures for Large Language Models [51.817121227562964]
大規模言語モデル(LLM)は、言語理解、生成、推論、マルチモーダルモデルの能力境界の押し付けにおいて、素晴らしい結果をもたらしている。
トランスフォーマーモデルは、現代のLLMの基礎として、優れたスケーリング特性を備えた強力なベースラインを提供する。
従来のトランスフォーマーアーキテクチャは、相当な計算を必要とし、大規模なトレーニングと実践的なデプロイメントに重大な障害を生じさせる。
論文 参考訳(メタデータ) (2025-08-13T14:13:46Z) - A Survey of Model Architectures in Information Retrieval [59.61734783818073]
2019年から現在までの期間は、情報検索(IR)と自然言語処理(NLP)における最大のパラダイムシフトの1つとなっている。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
今後の課題と今後の方向性について、先見的な議論で締めくくります。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - GreekT5: A Series of Greek Sequence-to-Sequence Models for News
Summarization [0.0]
本稿では,ギリシャのニュース記事を対象とした新しいTSモデルを提案する。
提案したモデルは、ギリシャのBARTに対して同じデータセットで徹底的に評価された。
評価結果から, 提案したモデルのほとんどは, 様々な評価指標において, ギリシャ語BARTを著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-13T21:33:12Z) - Exploring Large Language Models for Classical Philology [17.856304057963776]
我々は古代ギリシア語のための4つの言語モデルを作成し、2つの次元に沿って異なる。
補題化を含む形態的および構文的タスクに関する全てのモデルを評価する。
その結果、私たちのモデルはSoTAよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T05:21:02Z) - GreekBART: The First Pretrained Greek Sequence-to-Sequence Model [13.429669368275318]
我々は,BARTベースアーキテクチャをベースとした最初のSeq2SeqモデルであるA GreekBARTを紹介し,大規模なギリシャ語コーパスを事前訓練する。
我々は,BART-random, Greek-BERT, XLM-Rを様々な識別課題で評価し,比較した。
論文 参考訳(メタデータ) (2023-04-03T10:48:51Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - Multi-granular Legal Topic Classification on Greek Legislation [4.09134848993518]
ギリシア語で書かれた法律文書を分類する作業について研究する。
ギリシャの法律文書分類のタスクがオープンな研究プロジェクトで検討されたのはこれが初めてである。
論文 参考訳(メタデータ) (2021-09-30T17:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。