Fugu-MT 論文翻訳(概要): ChatLang-8: An LLM-Based Synthetic Data Generation Framework for Grammatical Error Correction

論文の概要: ChatLang-8: An LLM-Based Synthetic Data Generation Framework for Grammatical Error Correction

arxiv url: http://arxiv.org/abs/2406.03202v1
Date: Wed, 5 Jun 2024 12:35:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 18:30:28.154345
Title: ChatLang-8: An LLM-Based Synthetic Data Generation Framework for Grammatical Error Correction
Title（参考訳）: ChatLang-8: 文法的誤り訂正のためのLLMベースの合成データ生成フレームワーク
Authors: Jeiyoon Park, Chanjun Park, Heuiseok Lim,
Abstract要約: 本稿では,サブジェクトセレクタ,グラマーセレクタ,プロンプトマネージャ,評価器を含む自動フレームワークを提案する。また,8種類の主語名詞と23種類の文法を含む文法的誤り訂正タスクであるtextbfChatLang-8を提案する。実験の結果,ChatLang-8は既存のGECデータセットと比較して,より均一なパターン構成を示すことがわかった。
参考スコア（独自算出の注目度）: 6.220415006158471
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We explore and improve the capabilities of LLMs to generate data for grammatical error correction (GEC). When merely producing parallel sentences, their patterns are too simplistic to be valuable as a corpus. To address this issue, we propose an automated framework that includes a Subject Selector, Grammar Selector, Prompt Manager, and Evaluator. Additionally, we introduce a new dataset for GEC tasks, named \textbf{ChatLang-8}, which encompasses eight types of subject nouns and 23 types of grammar. It consists of 1 million pairs featuring human-like grammatical errors. Our experiments reveal that ChatLang-8 exhibits a more uniform pattern composition compared to existing GEC datasets. Furthermore, we observe improved model performance when using ChatLang-8 instead of existing GEC datasets. The experimental results suggest that our framework and ChatLang-8 are valuable resources for enhancing ChatGPT's data generation capabilities.
Abstract（参考訳）: 我々は,文法的誤り訂正(GEC)のためのデータを生成するLLMの能力を探求し,改良する。単にパラレル文を生成する場合、それらのパターンは単純すぎて、コーパスとしての価値がない。この問題に対処するため,対象選択子,文法選択子,プロンプトマネージャ,評価子を含む自動フレームワークを提案する。さらに、8種類の主語名詞と23種類の文法を含む GEC タスクのための新しいデータセットである \textbf{ChatLang-8} を導入する。人間のような文法的誤りを特徴とする100万対で構成されている。実験の結果,ChatLang-8は既存のGECデータセットと比較して,より均一なパターン構成を示すことがわかった。さらに,既存のGECデータセットの代わりにChatLang-8を用いた場合のモデル性能の改善も検討した。実験結果から,私たちのフレームワークとChatLang-8は,ChatGPTのデータ生成能力を向上するための貴重なリソースであることが示唆された。

関連論文リスト

Data Augmentation for Spoken Grammatical Error Correction [33.192165163181315]
本稿では,文法的誤りと不一致を伴う音声テキストペアを生成する完全自動化手法を提案する。 S&I Corpusは文法エラーアノテーションを付加した最初の公開音声データセットである。
論文参考訳（メタデータ） (2025-07-25T15:25:17Z)
Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。 PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。 PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文参考訳（メタデータ） (2025-03-06T09:14:02Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。 DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文参考訳（メタデータ） (2024-10-17T04:00:29Z)
LLM-based Code-Switched Text Generation for Grammatical Error Correction [3.4457319208816224]
本研究では,文法的誤り訂正システムをコードスイッチング(CSW)テキストに適用する複雑性について検討する。我々は、第二言語学習者として、英語のCSWデータセットから最先端のECCシステムを評価する。単言語テキストとCSWテキストの文法的誤りを補正できるモデルを開発する。
論文参考訳（メタデータ） (2024-10-14T10:07:29Z)
Exploiting Contextual Target Attributes for Target Sentiment Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文参考訳（メタデータ） (2023-12-21T11:45:28Z)
RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文参考訳（メタデータ） (2023-10-16T16:42:01Z)
Advancements in Arabic Grammatical Error Detection and Correction: An Empirical Investigation [12.15509670220182]
文法的誤り訂正(英: Grammatical error correct, GEC)は、英語でよく研究されている問題である。形態学的に豊かな言語におけるGECの研究は、データの不足や言語の複雑さといった課題のために制限されてきた。新たに開発した2つのトランスフォーマーを用いたプレトレーニングシーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC の最初の結果を示す。
論文参考訳（メタデータ） (2023-05-24T05:12:58Z)
BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。 APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文参考訳（メタデータ） (2022-06-21T18:34:11Z)
A Unified Strategy for Multilingual Grammatical Error Correction with Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。 NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文参考訳（メタデータ） (2022-01-26T02:10:32Z)
ErAConD : Error Annotated Conversational Dialog Dataset for Grammatical Error Correction [30.917993017459615]
本稿では,オープンドメイン会話から抽出した新しい並列文法誤り訂正データセットを提案する。このデータセットは、私たちの知る限り、会話の設定をターゲットにした最初のECCデータセットです。データセットの有用性を実証するために、アノテーション付きデータを用いて最先端のECCモデルを微調整する。
論文参考訳（メタデータ） (2021-12-15T20:27:40Z)
A Syntax-Guided Grammatical Error Correction Model with Dependency Tree Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文参考訳（メタデータ） (2021-11-05T07:07:48Z)
A Simple Recipe for Multilingual Grammatical Error Correction [6.262434757334487]
本稿では,最新の多言語文法的誤り訂正(GEC)モデルを学習するためのレシピを提案する。まず,多数の合成例を生成するための言語に依存しない手法を提案する。第2の要素は、大規模多言語言語モデルを使用することである。
論文参考訳（メタデータ） (2021-06-07T17:47:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。