論文の概要: Autocorrect for Estonian texts: final report from project EKTB25
- arxiv url: http://arxiv.org/abs/2402.11671v1
- Date: Sun, 18 Feb 2024 18:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:45:08.108645
- Title: Autocorrect for Estonian texts: final report from project EKTB25
- Title(参考訳): エストニア語テキストの自動修正:EKTB25プロジェクトの最終報告
- Authors: Agnes Luhtaru, Martin Vainikko, Krista Liin, Kais Allkivi-Metsoja,
Jaagup Kippar, Pille Eslon, Mark Fishel
- Abstract要約: このプロジェクトは2021-2023年にエストニア語技術プログラムによって資金提供された。
その主な目的はエストニア語のための綴りと文法の修正ツールを開発することだった。
エストニア語をサポートする商用言語モデルであるGPT4が作成された。
- 参考スコア(独自算出の注目度): 0.6597195879147557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The project was funded in 2021-2023 by the National Programme of Estonian
Language Technology. Its main aim was to develop spelling and grammar
correction tools for the Estonian language. The main challenge was the very
small amount of available error correction data needed for such development. To
mitigate this, (1) we annotated more correction data for model training and
testing, (2) we tested transfer-learning, i.e. retraining machine learning
models created for other tasks, so as not to depend solely on correction data,
(3) we compared the developed method and model with alternatives, including
large language models. We also developed automatic evaluation, which can
calculate the accuracy and yield of corrections by error category, so that the
effectiveness of different methods can be compared in detail.
There has been a breakthrough in large language models during the project:
GPT4, a commercial language model with Estonian-language support, has been
created. We took into account the existence of the model when adjusting plans
and in the report we present a comparison with the ability of GPT4 to improve
the Estonian language text.
The final results show that the approach we have developed provides better
scores than GPT4 and the result is usable but not entirely reliable yet. The
report also contains ideas on how GPT4 and other major language models can be
implemented in the future, focusing on open-source solutions.
All results of this project are open-data/open-source, with licenses that
allow them to be used for purposes including commercial ones.
- Abstract(参考訳): このプロジェクトは2021-2023年にエストニア語技術プログラムによって資金提供された。
その主な目的はエストニア語の綴りと文法の修正ツールを開発することだった。
主な課題は、そのような開発に必要なごく少量のエラー訂正データであった。
これを緩和するために,(1)モデルトレーニングとテストのためにより多くの補正データをアノテートし,(2)他のタスク用に作成された機械学習モデルをリトレーニングするトランスファーラーニングをテストし,(3)大規模言語モデルを含む代替手法と比較した。
また,誤差カテゴリによる補正の精度と収率を算出し,異なる手法の有効性を詳細に比較できる自動評価法を開発した。
プロジェクトの間に大きな言語モデルにブレークスルーがあった。エストニア語をサポートする商用言語モデルであるGPT4が作成された。
本報告では,計画調整時のモデルの存在を考慮し,エストニア語テキスト改善のためのgpt4の機能との比較を行った。
最終結果は、GPT4よりも優れたスコアを提供し、その結果は有用であるが、完全には信頼できないことを示している。
レポートにはまた、オープンソースソリューションに焦点を当てたGPT4や他の主要言語モデルの実装方法に関するアイデアも含まれている。
このプロジェクトの結果はすべてオープンソース/オープンソースで、商用ライセンスを含む目的で使用することができる。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems [47.753284211200665]
我々は、事前訓練段階に直接「エラー訂正」データを組み込むことの有用性を理解することに注力する。
このデータは、即座に修正された誤った解ステップで構成されている。
このタイプの事前学習データにより、言語モデルの推論精度の向上が期待できる。
論文 参考訳(メタデータ) (2024-08-29T06:49:20Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - Program-Aided Reasoners (better) Know What They Know [59.29201607431494]
プログラム支援言語モデル(PAL)の校正と,5つのデータセットにまたがるテキストベースのChain-of-Thought(COT)技術の比較を行った。
以上の結果から, PALは75%の症例で校正の改善につながることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T04:17:49Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Does Correction Remain A Problem For Large Language Models? [63.24433996856764]
本稿では,2つの実験を行ない,大規模言語モデルの文脈における補正の役割について検討する。
最初の実験では、誤り訂正のためのGPTのようなモデルを用いた数発の学習技術を用いて、単独のタスクとしての修正に焦点を当てた。
第2の実験では、あるレベルのノイズや誤りを含むテキストに対して、大きな言語モデルが許容し、適切に実行可能であるかどうかを検証し、他のNLPタスクの予備タスクとしての補正の概念について検討した。
論文 参考訳(メタデータ) (2023-08-03T14:09:31Z) - Training dataset and dictionary sizes matter in BERT models: the case of
Baltic languages [0.0]
我々はリトアニア語、ラトビア語、英語の3言語モデルLitLat BERTとエストニア語の単言語モデルEst-RoBERTaを訓練する。
提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2021-12-20T14:26:40Z) - CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。
我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。
提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文 参考訳(メタデータ) (2021-11-04T08:44:31Z) - Should we Stop Training More Monolingual Models, and Simply Use Machine
Translation Instead? [2.62121275102348]
機械翻訳は成熟した技術であり、低リソース言語のためのネイティブ言語モデルのトレーニングに深刻な反論を提起する。
英語モデルは前例のないペースで改善され、機械翻訳が改善されているため、低リソース言語からのデータを英語に翻訳することが経験的で環境的な観点からより効果的です。
論文 参考訳(メタデータ) (2021-04-21T10:21:24Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。