論文の概要: Beyond English: Evaluating LLMs for Arabic Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2312.08400v1
- Date: Wed, 13 Dec 2023 05:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 03:10:02.880533
- Title: Beyond English: Evaluating LLMs for Arabic Grammatical Error Correction
- Title(参考訳): アラビア語の文法的誤り訂正のためのLLMの評価
- Authors: Sang Yun Kwon, Gagan Bhatia, El Moatez Billah Nagoudi, Muhammad
Abdul-Mageed
- Abstract要約: 大きな言語モデル(LLM)は、人間の指示に従うように微調整され、英語のNLPタスクにおいて重要な機能を示した。
アラビア語文法誤り訂正(GEC)における命令微調整LDMの能力の評価
命令を微調整したモデルのサイズに関わらず、たとえ非常に小さくても、完全に微調整されたモデルよりも性能が優れていることが判明した。
- 参考スコア(独自算出の注目度): 19.970419667319046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) finetuned to follow human instruction have
recently exhibited significant capabilities in various English NLP tasks.
However, their performance in grammatical error correction (GEC), especially on
languages other than English, remains significantly unexplored. In this work,
we evaluate the abilities of instruction finetuned LLMs in Arabic GEC, a
complex task due to Arabic's rich morphology. Our findings suggest that various
prompting methods, coupled with (in-context) few-shot learning, demonstrate
considerable effectiveness, with GPT-4 achieving up to $65.49$ F$_{1}$ score
under expert prompting (approximately $5$ points higher than our established
baseline). Despite these positive results, we find that instruction finetuned
models, regardless of their size, are still outperformed by fully finetuned
ones, even if they are significantly smaller in size. This disparity highlights
substantial room for improvements for LLMs. Inspired by methods used in
low-resource machine translation, we also develop a method exploiting synthetic
data that significantly outperforms previous models on two standard Arabic
benchmarks. Our best model achieves a new SOTA on Arabic GEC, with $73.29$ and
$73.26$ F$_{1}$ on the 2014 and 2015 QALB datasets, respectively, compared to
peer-reviewed published baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、様々な英語のNLPタスクにおいて重要な機能を示した。
しかし、文法的誤り訂正(GEC)におけるそれらの性能は、特に英語以外の言語では明らかに解明されていない。
本研究では,アラビア語の豊富な形態素による複雑な課題である,アラビア語 GEC における微調整 LLM の能力を評価する。
この結果から, GPT-4 はエキスパート・プロンプトで最大 65.49$ F$_{1}$ のスコア(確立したベースラインよりも約 5$ 高い値)を得ることができた。
これらのポジティブな結果にもかかわらず、命令の微調整モデルは、そのサイズに関わらず、サイズがかなり小さい場合でも、完全に微調整されたモデルではまだ優れています。
この格差は、LLMの大幅な改善の余地を浮き彫りにする。
また,低リソース機械翻訳の手法に触発されて,従来の2つの標準アラビア語ベンチマークのモデルを大きく上回る合成データを利用する手法を開発した。
私たちの最良のモデルは、2014年と2015年のqalbデータセットでそれぞれ73.29$と73.26$f$_{1}$のアラビアgecで新しいsotaを達成しています。
関連論文リスト
- Danoliteracy of Generative, Large Language Models [1.3873323883842132]
デンマーク語と文化能力の尺度であるDanoliteracyを評価するためのGLLMベンチマークを提案する。
デンマーク語で GLLM のシナリオ性能のばらつきを95% で説明できる強力な要因が1つ見いだされる。
論文 参考訳(メタデータ) (2024-10-30T09:18:31Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation [16.655022975392992]
現在の多言語ASRモデルは計算集約的であり、適切な総合的な評価を欠いている。
我々は、大きな教師モデルからより効率的なより小さな学生の変種に知識を蒸留する。
最もよく蒸留されたモデル全体の性能(45.0$% WER)は、SoTAモデルの2倍の大きさである。
論文 参考訳(メタデータ) (2024-06-06T21:11:53Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - How good are Large Language Models on African Languages? [18.660783984850845]
アフリカの60言語にまたがる6つのタスクにおける4つのポピュラーな大言語モデル(mT0, Aya, LLaMa 2, GPT-4)の分析を行った。
以上の結果から,全てのLLMはアフリカの言語では性能が低いことが示唆され,高リソース言語に比べて性能の差が大きいことが示唆された。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - ChatGPT for Arabic Grammatical Error Correction [5.945320097465418]
大きな言語モデル(LLM)は、人間の指示に従うように微調整され、英語のNLPタスクにおいて重要な機能を示した。
本稿では,アラビア語の豊富な形態が原因で複雑化した課題である,アラビア語 GEC における微調整 LLM の指導能力について検討する。
命令の微調整モデルは,そのサイズによらず,かなり小型の完全微調整モデルに比べて性能が劣ることがわかった。
論文 参考訳(メタデータ) (2023-08-08T18:00:39Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - LAraBench: Benchmarking Arabic AI with Large Language Models [26.249084464525044]
LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。
我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。
これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
論文 参考訳(メタデータ) (2023-05-24T10:16:16Z) - Transcending Scaling Laws with 0.1% Extra Compute [128.13903265447675]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。
本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。
ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-10-20T16:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。