論文の概要: Diacritics Restoration using BERT with Analysis on Czech language
- arxiv url: http://arxiv.org/abs/2105.11408v1
- Date: Mon, 24 May 2021 16:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:19:37.007212
- Title: Diacritics Restoration using BERT with Analysis on Czech language
- Title(参考訳): チェコ語分析を用いたBERTによる発音復元
- Authors: Jakub N\'aplava, Milan Straka, Jana Strakov\'a
- Abstract要約: 本稿では,コンテキスト適応型埋め込み,すなわちBERTに基づくダイアクリティカルリカバリのための新しいアーキテクチャを提案する。
チェコ語(チェコ語)について詳細な誤り解析を行い、高い評価基準を持つ形態学的に豊かな言語である。
- 参考スコア(独自算出の注目度): 3.2729625923640278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new architecture for diacritics restoration based on
contextualized embeddings, namely BERT, and we evaluate it on 12 languages with
diacritics. Furthermore, we conduct a detailed error analysis on Czech, a
morphologically rich language with a high level of diacritization. Notably, we
manually annotate all mispredictions, showing that roughly 44% of them are
actually not errors, but either plausible variants (19%), or the system
corrections of erroneous data (25%). Finally, we categorize the real errors in
detail. We release the code at
https://github.com/ufal/bert-diacritics-restoration.
- Abstract(参考訳): 我々は,コンテキスト化された埋め込み,すなわちbertに基づくダイアクリティカルス復元のための新しいアーキテクチャを提案し,ダイアクリティカルスを持つ12言語で評価した。
さらに,形態学的に豊かなチェコ語について詳細な誤り解析を行った。
特に、すべての誤予測を手動で注釈付けし、その約44%が実際には誤りではなく、もっともらしい変種(19%)か、誤ったデータのシステム修正(25%)であることを示した。
最後に、実際のエラーを詳細に分類する。
コードはhttps://github.com/ufal/bert-diacritics-restorationでリリースします。
関連論文リスト
- Assessing the Efficacy of Grammar Error Correction: A Human Evaluation
Approach in the Japanese Context [10.047123247001714]
我々は,最先端のシーケンスタギング文法誤り検出・修正モデル(SeqTagger)の性能評価を行った。
自動アノテーションツールキット ERRANT を用いて,SeqTagger の性能評価を行った。
その結果、精度は63.66%、リコールは20.19%であった。
論文 参考訳(メタデータ) (2024-02-28T06:43:43Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - GEE! Grammar Error Explanation with Large Language Models [64.16199533560017]
本稿では,文法的誤りを1対の誤り文と訂正文に1文で説明する必要がある文法的誤り説明の課題を提案する。
文法的誤り説明における GPT-4 の能力を解析し, ワンショットプロンプトを用いた60.2% の誤り説明しか生成しないことを確認した。
我々は、構造化されたアトミックトークンの編集を行うために、微調整された大規模言語モデルを活用する2段階のパイプラインを開発した。
論文 参考訳(メタデータ) (2023-11-16T02:45:47Z) - Toward Human-Like Evaluation for Natural Language Generation with Error
Analysis [93.34894810865364]
最近の研究では、大きなエラー(例えば、誤訳されたトークン)と小さなエラーの両方を考慮すると、高品質な人間の判断が得られることが示されている。
これにより、自動エラー解析によって評価指標(人間のような評価)の最終目標にアプローチするインスピレーションがもたらされる。
BARTScoreは人為的なエラー解析戦略、すなわちBARTScore++を取り入れることでBARTScoreを強化します。
論文 参考訳(メタデータ) (2022-12-20T11:36:22Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - Is Word Error Rate a good evaluation metric for Speech Recognition in
Indic Languages? [0.0]
自動音声認識(ASR)における誤り率計算のための新しい手法を提案する。
この新しいメートル法は、半分の文字を持ち、同じ文字を異なる形式で書くことができる言語のためのものである。
私たちは、インディ・コンテクストの主要な言語の一つであるヒンディー語で方法論を実装しています。
論文 参考訳(メタデータ) (2022-03-30T18:32:08Z) - Correcting diacritics and typos with ByT5 transformer model [0.0]
人々は、ダイアクリティカルを使ってタイピング時にタイプミス(タイポ)をする傾向がある。
本研究では,新たに開発されたByT5バイトレベルのトランスモデルを用いて,両問題に一度に対処する。
ダイアクリティカルス修復とタイポス補正の併用により,13言語における最先端性能が実証された。
論文 参考訳(メタデータ) (2022-01-31T13:52:51Z) - Czech Grammar Error Correction with a Large and Diverse Corpus [64.94696028072698]
文法的誤り訂正(GEC)のための注釈付きチェコ語コーパスを大規模かつ多種多様に導入する。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイからウェブサイトテキストまで、さまざまな4つのドメインを提供している。
我々は、トランスフォーマーをベースとしたいくつかのチェコのGECシステムを比較し、将来の研究に強力なベースラインを設定している。
論文 参考訳(メタデータ) (2022-01-14T18:20:47Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。