論文の概要: GRDD: A Dataset for Greek Dialectal NLP
- arxiv url: http://arxiv.org/abs/2308.00802v3
- Date: Sat, 25 Nov 2023 09:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 15:26:21.203650
- Title: GRDD: A Dataset for Greek Dialectal NLP
- Title(参考訳): GRDD:ギリシャ方言NLPのためのデータセット
- Authors: Stergios Chatzikyriakidis and Chatrine Qwaider and Ilias Kolokousis
and Christina Koula and Dimitris Papadakis and Efthymia Sakellariou
- Abstract要約: 現代ギリシア語方言の計算研究のためのデータセットを提示する。
データセットはかなりの大きさであり、不均衡であるにもかかわらず、このタイプの大規模な方言資源を現代ギリシア語の方言のために作成する最初の試みである。
- 参考スコア(独自算出の注目度): 0.6291443816903801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a dataset for the computational study of a number
of Modern Greek dialects. It consists of raw text data from four dialects of
Modern Greek, Cretan, Pontic, Northern Greek and Cypriot Greek. The dataset is
of considerable size, albeit imbalanced, and presents the first attempt to
create large scale dialectal resources of this type for Modern Greek dialects.
We then use the dataset to perform dialect idefntification. We experiment with
traditional ML algorithms, as well as simple DL architectures. The results show
very good performance on the task, potentially revealing that the dialects in
question have distinct enough characteristics allowing even simple ML models to
perform well on the task. Error analysis is performed for the top performing
algorithms showing that in a number of cases the errors are due to insufficient
dataset cleaning.
- Abstract(参考訳): 本稿では,いくつかの現代ギリシア方言の計算研究のためのデータセットを提案する。
原文は、現代のギリシア語、クレタ語、ポントス語、北ギリシア語、キプロス語の4つの方言から得られる。
データセットはかなりの大きさであり、不均衡であるにもかかわらず、このタイプの大規模な方言資源を現代ギリシア語の方言のために作成する最初の試みである。
次に、データセットを使用して方言の idefntificationを実行します。
従来のMLアルゴリズムやシンプルなDLアーキテクチャを実験する。
この結果から,課題の方言には,単純なMLモデルでもタスク上でうまく機能できる十分な特徴がある可能性が示唆された。
上位実行アルゴリズムではエラー解析が行われ、多くの場合、エラーはデータセットのクリーニング不足によるものである。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Lean Workbook: A large-scale Lean problem set formalized from natural language math problems [50.22847430754973]
大規模な言語モデルは、リーンのような形式言語を使って証明する数学の定理が得意ではありません。
この領域で重要な課題は、これらの形式言語で利用可能なトレーニングデータの不足である。
本稿では,自然言語の数学的問題をリーン4文に変換するために,合成データを反復的に生成・フィルタリングするパイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-06T08:25:43Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - GECTurk: Grammatical Error Correction and Detection Dataset for Turkish [1.804922416527064]
文法的誤り検出・訂正(GEC)ツールは、母語話者と第二言語学習者にとって有用であることが証明されている。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
トルコ語のためのフレキシブルで総合的なデータ生成パイプラインを提案し、20以上の専門家による文法と綴り規則をカバーしている。
論文 参考訳(メタデータ) (2023-09-20T14:25:44Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge
Distillation [0.0]
我々は、多言語知識蒸留手法を用いてBERTモデルを訓練し、古代ギリシア語テキストの文埋め込みを生成する。
我々は,古代ギリシアの文書を英訳と整合させる文埋め込みアライメント法を用いて,並列文データセットを構築した。
我々は,翻訳検索,意味的類似性,意味的検索タスクのモデルを評価する。
論文 参考訳(メタデータ) (2023-08-24T23:38:44Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Training Naturalized Semantic Parsers with Very Little Data [10.709587018625275]
State-of-the-art(SOTA)セマンティクスは、大量のテキストに基づいて事前訓練された大規模な言語モデルに基づくセク2セックアーキテクチャである。
最近の研究は意味解析の改革を探求しており、出力シーケンスはそれ自体が自然言語文である。
本手法は,Overnightデータセット上で新たなSOTA数ショット性能を実現する。
論文 参考訳(メタデータ) (2022-04-29T17:14:54Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。