論文の概要: GECTurk: Grammatical Error Correction and Detection Dataset for Turkish
- arxiv url: http://arxiv.org/abs/2309.11346v1
- Date: Wed, 20 Sep 2023 14:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 12:35:53.615141
- Title: GECTurk: Grammatical Error Correction and Detection Dataset for Turkish
- Title(参考訳): GECTurk:トルコの文法的誤り訂正と検出データセット
- Authors: Atakan Kara, Farrin Marouf Sofian, Andrew Bond and G\"ozde G\"ul
\c{S}ahin
- Abstract要約: 文法的誤り検出・訂正(GEC)ツールは、母語話者と第二言語学習者にとって有用であることが証明されている。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
トルコ語のためのフレキシブルで総合的なデータ生成パイプラインを提案し、20以上の専門家による文法と綴り規則をカバーしている。
- 参考スコア(独自算出の注目度): 1.804922416527064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grammatical Error Detection and Correction (GEC) tools have proven useful for
native speakers and second language learners. Developing such tools requires a
large amount of parallel, annotated data, which is unavailable for most
languages. Synthetic data generation is a common practice to overcome the
scarcity of such data. However, it is not straightforward for morphologically
rich languages like Turkish due to complex writing rules that require
phonological, morphological, and syntactic information. In this work, we
present a flexible and extensible synthetic data generation pipeline for
Turkish covering more than 20 expert-curated grammar and spelling rules
(a.k.a., writing rules) implemented through complex transformation functions.
Using this pipeline, we derive 130,000 high-quality parallel sentences from
professionally edited articles. Additionally, we create a more realistic test
set by manually annotating a set of movie reviews. We implement three baselines
formulating the task as i) neural machine translation, ii) sequence tagging,
and iii) prefix tuning with a pretrained decoder-only model, achieving strong
results. Furthermore, we perform exhaustive experiments on out-of-domain
datasets to gain insights on the transferability and robustness of the proposed
approaches. Our results suggest that our corpus, GECTurk, is high-quality and
allows knowledge transfer for the out-of-domain setting. To encourage further
research on Turkish GEC, we release our datasets, baseline models, and the
synthetic data generation pipeline at https://github.com/GGLAB-KU/gecturk.
- Abstract(参考訳): 文法的誤り検出・訂正(GEC)ツールは、ネイティブスピーカーや第二言語学習者にとって有用であることが証明されている。
このようなツールの開発には、多くの言語では利用できない大量の並列アノテーションデータが必要である。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
しかし、音韻学的、形態的、統語論的な情報を必要とする複雑な記述規則のため、トルコ語のような形態学的に豊かな言語は単純ではない。
本稿では,トルコ語のための柔軟な拡張可能な合成データ生成パイプラインを提案し,複雑な変換関数によって実装された20以上の専門家による文法と綴り規則(つまり,ルール記述)をカバーする。
このパイプラインを用いて,専門家が編集した記事から,13万文の高品質並列文を導出する。
さらに,映画レビューを手動で注釈付けすることで,より現実的なテストセットを作成する。
タスクを定式化する3つのベースラインを実装します。
一 ニューラルマシンの翻訳、
二 配列のタグ付け及び
三 プリトレーニングされたデコーダのみのモデルによるプレフィックスチューニングにより、強い結果を得る。
さらに,提案手法の伝達性とロバスト性に関する知見を得るために,領域外データセットの徹底的な実験を行う。
以上の結果から,我々のコーパスであるGECTurkは高品質であり,ドメイン外設定の知識伝達を可能にすることが示唆された。
トルコのGECに関するさらなる研究を促進するため、データセット、ベースラインモデル、および合成データ生成パイプラインをhttps://github.com/GGLAB-KU/gecturk.comでリリースします。
関連論文リスト
- Organic Data-Driven Approach for Turkish Grammatical Error Correction and LLMs [0.0]
我々は,新しい有機データ駆動型アプローチ,クリーン挿入を導入し,並列なトルコ文法的誤り訂正データセットを構築する。
トルコの文法的誤り訂正テストの2つのセットについて, 公開されている3つのうちの2つについて, 最先端の結果を得た。
論文 参考訳(メタデータ) (2024-05-24T08:00:24Z) - Pipeline and Dataset Generation for Automated Fact-checking in Almost
Any Language [0.0]
本稿では,公開言語モデルとデータを活用したファクトチェック自動化パイプラインを提案する。
パイプラインは,エビデンス検索とクレームの妥当性評価という,2つの主要なモジュールで構成されている。
チェコ語、英語、ポーランド語、スロバキア語パイプラインのすべてのデータと微調整されたモデルにオープンアクセスを提供しています。
論文 参考訳(メタデータ) (2023-12-15T19:43:41Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Neural Pipeline for Zero-Shot Data-to-Text Generation [3.42658286826597]
本稿では,汎用的なテキストベース操作に基づいて訓練された一連のモジュールを用いて,単一項目記述を変換してテキストを生成することを提案する。
WebNLGとE2Eという2つの主要な3重テキストデータセットに関する実験により、ゼロショット設定でのRDFトリプルからのD2T生成が可能になった。
論文 参考訳(メタデータ) (2022-03-30T13:14:35Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Have Your Text and Use It Too! End-to-End Neural Data-to-Text Generation
with Semantic Fidelity [3.8673630752805432]
本稿では,ニューラルでエンドツーエンドなデータ・ツー・テキスト生成システムであるDataTunerを紹介する。
我々は2段階の世代レベルのアプローチを採り、微調整言語モデルと意味的忠実さを組み合わせた。
我々は、DataTunerが4つの主要なD2Tデータセットにまたがる自動メトリクスにおいて、技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2020-04-08T11:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。