論文の概要: GRDD+: An Extended Greek Dialectal Dataset with Cross-Architecture Fine-tuning Evaluation
- arxiv url: http://arxiv.org/abs/2511.03772v2
- Date: Sat, 08 Nov 2025 09:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 12:49:31.810268
- Title: GRDD+: An Extended Greek Dialectal Dataset with Cross-Architecture Fine-tuning Evaluation
- Title(参考訳): GRDD+: クロスアーキテクチャファインチューニング評価を備えた拡張ギリシャ方言データセット
- Authors: Stergios Chatzikyriakidis, Dimitris Papadakis, Sevasti-Ioanna Papaioannou, Erofili Psaltaki,
- Abstract要約: このデータセットの総サイズは6,374,939語、10種類である。
我々は,良質な方言データが多数のLLMに与える影響を確認するために,多数の微調整実験を行った。
- 参考スコア(独自算出の注目度): 0.17944790017290943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an extended Greek Dialectal Dataset (GRDD+) 1that complements the existing GRDD dataset with more data from Cretan, Cypriot, Pontic and Northern Greek, while we add six new varieties: Greco-Corsican, Griko (Southern Italian Greek), Maniot, Heptanesian, Tsakonian, and Katharevusa Greek. The result is a dataset with total size 6,374,939 words and 10 varieties. This is the first dataset with such variation and size to date. We conduct a number of fine-tuning experiments to see the effect of good quality dialectal data on a number of LLMs. We fine-tune three model architectures (Llama-3-8B, Llama-3.1-8B, Krikri-8B) and compare the results to frontier models (Claude-3.7-Sonnet, Gemini-2.5, ChatGPT-5).
- Abstract(参考訳): 既存のGRDDデータセットを補完する拡張ギリシャ方言データセット(GRDD+)1をクレタ語、キプロス語、ポントス語、北ギリシア語からさらに多くのデータとともに提示するとともに、グレコ・コルシカン語、グリコ語(南イタリア語)、マニオト語、ヘプタンス語、ツァコニア語、カサレヴサ語の6種類の新品種を追加します。
その結果、合計6,374,939語、10種類のデータセットが得られた。
これは、このようなバリエーションとサイズを持つ最初のデータセットである。
我々は,良質な方言データが多数のLLMに与える影響を確認するために,多数の微調整実験を行った。
3つのモデルアーキテクチャ(Llama-3-8B,Llama-3.1-8B,Krikri-8B)を微調整し,フロンティアモデル(Claude-3.7-Sonnet,Gemini-2.5,ChatGPT-5)と比較する。
関連論文リスト
- Krikri: Advancing Open Large Language Models for Greek [6.922876845922809]
ギリシャ語に適した最先端の大規模言語モデルであるLlama-Krikri-8Bを紹介する。
Llama-Krikri-8Bは、言語的ニュアンスへの優れた適応を保証するために、高品質なギリシャ語のデータを広範囲に訓練してきた。
論文 参考訳(メタデータ) (2025-05-19T23:18:27Z) - Low-resource Information Extraction with the European Clinical Case Corpus [4.747950273856823]
医療領域における多言語データセットであるE3C-3.0を提案する。
このデータセットには、5つの言語のネイティブテキストと、英語ソースから5つのターゲット言語に翻訳され投影されたテキストの両方が含まれている。
自動アノテーション投影を含む半自動的な手法が実装されている。
論文 参考訳(メタデータ) (2025-03-26T14:07:40Z) - RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Large-Vocabulary Segmentation for Medical Images with Text Prompts [68.9193694019039]
本稿では,SATと呼ばれるテキストプロンプトとして医療用語を駆使した3次元医用画像に任意のセグメンテーションを組み込むモデルを構築することを目的とする。
6502個の解剖学的用語を含む,ヒト解剖学上の最初のマルチモーダル知識ツリーを構築した。
トレーニング用の最大かつ最も包括的なセグメンテーションデータセットを構築し、72データセットから22K以上の3Dスキャンを収集します。
論文 参考訳(メタデータ) (2023-12-28T18:16:00Z) - Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge
Distillation [0.0]
我々は、多言語知識蒸留手法を用いてBERTモデルを訓練し、古代ギリシア語テキストの文埋め込みを生成する。
我々は,古代ギリシアの文書を英訳と整合させる文埋め込みアライメント法を用いて,並列文データセットを構築した。
我々は,翻訳検索,意味的類似性,意味的検索タスクのモデルを評価する。
論文 参考訳(メタデータ) (2023-08-24T23:38:44Z) - GRDD: A Dataset for Greek Dialectal NLP [0.49371014979220623]
現代ギリシア語方言の計算研究のためのデータセットを提示する。
データセットはかなりの大きさであり、不均衡であるにもかかわらず、このタイプの大規模な方言資源を現代ギリシア語の方言のために作成する最初の試みである。
論文 参考訳(メタデータ) (2023-08-01T19:34:18Z) - GreekBART: The First Pretrained Greek Sequence-to-Sequence Model [13.429669368275318]
我々は,BARTベースアーキテクチャをベースとした最初のSeq2SeqモデルであるA GreekBARTを紹介し,大規模なギリシャ語コーパスを事前訓練する。
我々は,BART-random, Greek-BERT, XLM-Rを様々な識別課題で評価し,比較した。
論文 参考訳(メタデータ) (2023-04-03T10:48:51Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes [89.75025195440287]
既存の手法では、対象の特徴学習の副産物のような関係を、特にそれを符号化することなく扱うことができる。
より記述的で包括的なキャプションを生成するためのマルチオーダーリレーションマイニングモデルMOREを提案する。
我々のMOREは、複雑な関係を限られた数の基本関係から導出できるため、進行的にオブジェクト関係を符号化する。
論文 参考訳(メタデータ) (2022-03-10T07:26:15Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。