論文の概要: LLMCL-GEC: Advancing Grammatical Error Correction with LLM-Driven Curriculum Learning
- arxiv url: http://arxiv.org/abs/2412.12541v1
- Date: Tue, 17 Dec 2024 05:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:49.822706
- Title: LLMCL-GEC: Advancing Grammatical Error Correction with LLM-Driven Curriculum Learning
- Title(参考訳): LLMCL-GEC:LLM駆動型カリキュラム学習による文法的誤り訂正の改善
- Authors: Tao Fang, Derek F. Wong, Lusheng Zhang, Keyan Jin, Qiang Zhang, Tianjiao Li, Jinlong Hou, Lidia S. Chao,
- Abstract要約: 大規模言語モデル(LLM)は、特定の自然言語処理(NLP)タスクにおいて顕著な機能を示した。
しかし、文法的誤り訂正(GEC)のような特定の領域の特殊モデルと比較しても、まだ習熟性に欠ける可能性がある。
- 参考スコア(独自算出の注目度): 44.010834543396165
- License:
- Abstract: While large-scale language models (LLMs) have demonstrated remarkable capabilities in specific natural language processing (NLP) tasks, they may still lack proficiency compared to specialized models in certain domains, such as grammatical error correction (GEC). Drawing inspiration from the concept of curriculum learning, we have delved into refining LLMs into proficient GEC experts by devising effective curriculum learning (CL) strategies. In this paper, we introduce a novel approach, termed LLM-based curriculum learning, which capitalizes on the robust semantic comprehension and discriminative prowess inherent in LLMs to gauge the complexity of GEC training data. Unlike traditional curriculum learning techniques, our method closely mirrors human expert-designed curriculums. Leveraging the proposed LLM-based CL method, we sequentially select varying levels of curriculums ranging from easy to hard, and iteratively train and refine using the pretrianed T5 and LLaMA series models. Through rigorous testing and analysis across diverse benchmark assessments in English GEC, including the CoNLL14 test, BEA19 test, and BEA19 development sets, our approach showcases a significant performance boost over baseline models and conventional curriculum learning methodologies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特定の自然言語処理(NLP)タスクにおいて顕著な能力を示してきたが、文法的誤り訂正(GEC)のような特定の領域の特殊モデルと比較して、まだ能力に欠ける可能性がある。
カリキュラム学習の概念からインスピレーションを得た我々は、効果的なカリキュラム学習(CL)戦略を考案し、LCMを熟練したGEC専門家に精錬することを模索した。
本稿では,LCMに固有の頑健な意味理解と識別能力を利用して,GEC学習データの複雑さを計測する,LCMに基づくカリキュラム学習という新しい手法を提案する。
従来のカリキュラム学習技術とは異なり,本手法は専門家が設計したカリキュラムを密接に反映する。
提案したLLM CL 法を応用し,T5 および LLaMA シリーズモデルを用いて,簡単から難易度まで多様なカリキュラムを逐次的に選択し,反復的に訓練・精錬する。
CoNLL14 テスト,BEA19 テスト,BEA19 開発セットなど,英語 GEC における様々なベンチマーク評価の厳密なテストと分析を通じて,本手法はベースラインモデルや従来のカリキュラム学習手法よりも優れた性能向上を示す。
関連論文リスト
- Less is More: Pre-Training Cross-Lingual Small-Scale Language Models with Cognitively-Plausible Curriculum Learning Strategies [2.6684726101845]
よりきめ細かいカリキュラム学習戦略を特定するために言語習得理論を利用できるかを評価する。
我々は、SSLMと取得インスパイアされたキュリキュラを言語横断的に実装するために、4つの言語家族のための年齢順コーパスを作成した。
論文 参考訳(メタデータ) (2024-10-30T10:31:54Z) - Improving In-Context Learning with Small Language Model Ensembles [2.3499129784547654]
In-context Learning (ICL) は安価で効率的な代替手段であるが、高度な手法の精度と一致しない。
本稿では,複数の微調整小言語モデル(SLM)の専門知識を活用することでICLを強化する新しいアプローチであるEnsemble SuperICLを提案する。
論文 参考訳(メタデータ) (2024-10-29T09:02:37Z) - Recent Advances of Foundation Language Models-based Continual Learning: A Survey [31.171203978742447]
基礎言語モデル (LM) は自然言語処理 (NLP) とコンピュータビジョン (CV) の分野において重要な成果を上げている。
しかし、破滅的な忘れ物のため、人間のような継続的学習をエミュレートすることはできない。
従来の知識を忘れずに新しいタスクに適応できるように、様々な連続学習(CL)ベースの方法論が開発されている。
論文 参考訳(メタデータ) (2024-05-28T23:32:46Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Rethinking the Roles of Large Language Models in Chinese Grammatical
Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。
CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。
CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文 参考訳(メタデータ) (2024-02-18T01:40:34Z) - Let's Learn Step by Step: Enhancing In-Context Learning Ability with Curriculum Learning [9.660673938961416]
実証オーダリングは、文脈内学習(ICL)にとって重要な戦略である
In-Context Curriculum Learning (ICCL) と呼ばれるICLの簡易かつ効果的な実演順序付け手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T14:55:33Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。