Fugu-MT 論文翻訳(概要): Autocorrect for Estonian texts: final report from project EKTB25

論文の概要: Autocorrect for Estonian texts: final report from project EKTB25

arxiv url: http://arxiv.org/abs/2402.11671v1
Date: Sun, 18 Feb 2024 18:20:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 19:45:08.108645
Title: Autocorrect for Estonian texts: final report from project EKTB25
Title（参考訳）: エストニア語テキストの自動修正:EKTB25プロジェクトの最終報告
Authors: Agnes Luhtaru, Martin Vainikko, Krista Liin, Kais Allkivi-Metsoja, Jaagup Kippar, Pille Eslon, Mark Fishel
Abstract要約: このプロジェクトは2021-2023年にエストニア語技術プログラムによって資金提供された。その主な目的はエストニア語のための綴りと文法の修正ツールを開発することだった。エストニア語をサポートする商用言語モデルであるGPT4が作成された。
参考スコア（独自算出の注目度）: 0.6597195879147557
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The project was funded in 2021-2023 by the National Programme of Estonian Language Technology. Its main aim was to develop spelling and grammar correction tools for the Estonian language. The main challenge was the very small amount of available error correction data needed for such development. To mitigate this, (1) we annotated more correction data for model training and testing, (2) we tested transfer-learning, i.e. retraining machine learning models created for other tasks, so as not to depend solely on correction data, (3) we compared the developed method and model with alternatives, including large language models. We also developed automatic evaluation, which can calculate the accuracy and yield of corrections by error category, so that the effectiveness of different methods can be compared in detail. There has been a breakthrough in large language models during the project: GPT4, a commercial language model with Estonian-language support, has been created. We took into account the existence of the model when adjusting plans and in the report we present a comparison with the ability of GPT4 to improve the Estonian language text. The final results show that the approach we have developed provides better scores than GPT4 and the result is usable but not entirely reliable yet. The report also contains ideas on how GPT4 and other major language models can be implemented in the future, focusing on open-source solutions. All results of this project are open-data/open-source, with licenses that allow them to be used for purposes including commercial ones.
Abstract（参考訳）: このプロジェクトは2021-2023年にエストニア語技術プログラムによって資金提供された。その主な目的はエストニア語の綴りと文法の修正ツールを開発することだった。主な課題は、そのような開発に必要なごく少量のエラー訂正データであった。これを緩和するために,(1)モデルトレーニングとテストのためにより多くの補正データをアノテートし,(2)他のタスク用に作成された機械学習モデルをリトレーニングするトランスファーラーニングをテストし,(3)大規模言語モデルを含む代替手法と比較した。また,誤差カテゴリによる補正の精度と収率を算出し,異なる手法の有効性を詳細に比較できる自動評価法を開発した。プロジェクトの間に大きな言語モデルにブレークスルーがあった。エストニア語をサポートする商用言語モデルであるGPT4が作成された。本報告では,計画調整時のモデルの存在を考慮し,エストニア語テキスト改善のためのgpt4の機能との比較を行った。最終結果は、GPT4よりも優れたスコアを提供し、その結果は有用であるが、完全には信頼できないことを示している。レポートにはまた、オープンソースソリューションに焦点を当てたGPT4や他の主要言語モデルの実装方法に関するアイデアも含まれている。このプロジェクトの結果はすべてオープンソース/オープンソースで、商用ライセンスを含む目的で使用することができる。

関連論文リスト

Aligning Knowledge Graphs and Language Models for Factual Accuracy [7.205708660952737]
本稿では,ALIGNed-LLMを提案する。我々は、TransEのようなトレーニング済みの知識グラフ埋め込み(KGE)モデルとトレーニング可能なプロジェクション層からの埋め込みを使用して、エンティティとテキストの埋め込みを調整します。
論文参考訳（メタデータ） (2025-07-17T08:15:50Z)
KD-MSLRT: Lightweight Sign Language Recognition Model Based on Mediapipe and 3D to 1D Knowledge Distillation [8.891724904033582]
本稿では,3次元から1次元へのクロスモーダル多知識蒸留手法と,新しいエンドツーエンドのテキスト修正フレームワークを提案する。 PHOENIX14とPHOENIX14Tデータセットのワード誤り率(WER)は最先端のCorrNetと比較して少なくとも1.4%低下する。また、中国語手話データセットの収集とリリースも行い、専門的な訓練語彙を開発した。
論文参考訳（メタデータ） (2025-01-04T15:59:33Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems [47.753284211200665]
我々は、事前訓練段階に直接「エラー訂正」データを組み込むことの有用性を理解することに注力する。このデータは、即座に修正された誤った解ステップで構成されている。このタイプの事前学習データにより、言語モデルの推論精度の向上が期待できる。
論文参考訳（メタデータ） (2024-08-29T06:49:20Z)
A Novel Approach for Automatic Program Repair using Round-Trip Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文参考訳（メタデータ） (2024-01-15T22:36:31Z)
Program-Aided Reasoners (better) Know What They Know [59.29201607431494]
プログラム支援言語モデル(PAL)の校正と,5つのデータセットにまたがるテキストベースのChain-of-Thought(COT)技術の比較を行った。以上の結果から, PALは75%の症例で校正の改善につながることが示唆された。
論文参考訳（メタデータ） (2023-11-16T04:17:49Z)
Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文参考訳（メタデータ） (2023-11-14T18:59:15Z)
Does Correction Remain A Problem For Large Language Models? [63.24433996856764]
本稿では,2つの実験を行ない,大規模言語モデルの文脈における補正の役割について検討する。最初の実験では、誤り訂正のためのGPTのようなモデルを用いた数発の学習技術を用いて、単独のタスクとしての修正に焦点を当てた。第2の実験では、あるレベルのノイズや誤りを含むテキストに対して、大きな言語モデルが許容し、適切に実行可能であるかどうかを検証し、他のNLPタスクの予備タスクとしての補正の概念について検討した。
論文参考訳（メタデータ） (2023-08-03T14:09:31Z)
Training dataset and dictionary sizes matter in BERT models: the case of Baltic languages [0.0]
我々はリトアニア語、ラトビア語、英語の3言語モデルLitLat BERTとエストニア語の単言語モデルEst-RoBERTaを訓練する。提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおいて,その性能を評価する。
論文参考訳（メタデータ） (2021-12-20T14:26:40Z)
CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文参考訳（メタデータ） (2021-11-04T08:44:31Z)
Should we Stop Training More Monolingual Models, and Simply Use Machine Translation Instead? [2.62121275102348]
機械翻訳は成熟した技術であり、低リソース言語のためのネイティブ言語モデルのトレーニングに深刻な反論を提起する。英語モデルは前例のないペースで改善され、機械翻訳が改善されているため、低リソース言語からのデータを英語に翻訳することが経験的で環境的な観点からより効果的です。
論文参考訳（メタデータ） (2021-04-21T10:21:24Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。