論文の概要: GRDD+: An Extended Greek Dialectal Dataset with Cross-Architecture Fine-tuning Evaluation
- arxiv url: http://arxiv.org/abs/2511.03772v1
- Date: Wed, 05 Nov 2025 18:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.178468
- Title: GRDD+: An Extended Greek Dialectal Dataset with Cross-Architecture Fine-tuning Evaluation
- Title(参考訳): GRDD+: クロスアーキテクチャファインチューニング評価を備えた拡張ギリシャ方言データセット
- Authors: Stergios Chatzikyriakidis, Dimitris Papadakis, Sevasti-Ioanna Papaioannou, Erofili Psaltaki,
- Abstract要約: このデータセットの総サイズは6,374,939語、10種類である。
我々は,良質な方言データが多数のLLMに与える影響を確認するために,多数の微調整実験を行った。
- 参考スコア(独自算出の注目度): 0.17944790017290943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an extended Greek Dialectal Dataset (GRDD+) 1that complements the existing GRDD dataset with more data from Cretan, Cypriot, Pontic and Northern Greek, while we add six new varieties: Greco-Corsican, Griko (Southern Italian Greek), Maniot, Heptanesian, Tsakonian, and Katharevusa Greek. The result is a dataset with total size 6,374,939 words and 10 varieties. This is the first dataset with such variation and size to date. We conduct a number of fine-tuning experiments to see the effect of good quality dialectal data on a number of LLMs. We fine-tune three model architectures (Llama-3-8B, Llama-3.1-8B, Krikri-8B) and compare the results to frontier models (Claude-3.7-Sonnet, Gemini-2.5, ChatGPT-5).
- Abstract(参考訳): 既存のGRDDデータセットを補完する拡張ギリシャ方言データセット(GRDD+)1をクレタ語、キプロス語、ポントス語、北ギリシア語からさらに多くのデータとともに提示するとともに、グレコ・コルシカン語、グリコ語(南イタリア語)、マニオト語、ヘプタンス語、ツァコニア語、カサレヴサ語の6種類の新品種を追加します。
その結果、合計6,374,939語、10種類のデータセットが得られた。
これは、このようなバリエーションとサイズを持つ最初のデータセットである。
我々は,良質な方言データが多数のLLMに与える影響を確認するために,多数の微調整実験を行った。
3つのモデルアーキテクチャ(Llama-3-8B,Llama-3.1-8B,Krikri-8B)を微調整し,フロンティアモデル(Claude-3.7-Sonnet,Gemini-2.5,ChatGPT-5)と比較する。
関連論文リスト
- RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Large-Vocabulary Segmentation for Medical Images with Text Prompts [68.9193694019039]
本稿では,SATと呼ばれるテキストプロンプトとして医療用語を駆使した3次元医用画像に任意のセグメンテーションを組み込むモデルを構築することを目的とする。
6502個の解剖学的用語を含む,ヒト解剖学上の最初のマルチモーダル知識ツリーを構築した。
トレーニング用の最大かつ最も包括的なセグメンテーションデータセットを構築し、72データセットから22K以上の3Dスキャンを収集します。
論文 参考訳(メタデータ) (2023-12-28T18:16:00Z) - GRDD: A Dataset for Greek Dialectal NLP [0.49371014979220623]
現代ギリシア語方言の計算研究のためのデータセットを提示する。
データセットはかなりの大きさであり、不均衡であるにもかかわらず、このタイプの大規模な方言資源を現代ギリシア語の方言のために作成する最初の試みである。
論文 参考訳(メタデータ) (2023-08-01T19:34:18Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。