論文の概要: Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors
- arxiv url: http://arxiv.org/abs/2302.08975v1
- Date: Fri, 17 Feb 2023 16:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:07:33.268015
- Title: Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors
- Title(参考訳): 詳細情報を目指して : 翻訳誤りの種類と位置の特定
- Authors: Keqin Bao, Yu Wan, Dayiheng Liu, Baosong Yang, Wenqiang Lei, Xiangnan
He, Derek F.Wong, Jun Xie
- Abstract要約: 既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 80.22825549235556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained information on translation errors is helpful for the translation
evaluation community. Existing approaches can not synchronously consider error
position and type, failing to integrate the error information of both. In this
paper, we propose Fine-Grained Translation Error Detection (FG-TED) task,
aiming at identifying both the position and the type of translation errors on
given source-hypothesis sentence pairs. Besides, we build an FG-TED model to
predict the \textbf{addition} and \textbf{omission} errors -- two typical
translation accuracy errors. First, we use a word-level classification paradigm
to form our model and use the shortcut learning reduction to relieve the
influence of monolingual features. Besides, we construct synthetic datasets for
model training, and relieve the disagreement of data labeling in authoritative
datasets, making the experimental benchmark concordant. Experiments show that
our model can identify both error type and position concurrently, and gives
state-of-the-art results on the restored dataset. Our model also delivers more
reliable predictions on low-resource and transfer scenarios than existing
baselines. The related datasets and the source code will be released in the
future.
- Abstract(参考訳): 翻訳誤りの詳細な情報は翻訳評価コミュニティにとって有用である。
既存のアプローチでは、両方のエラー情報を統合できないため、エラー位置と型を同期的に考慮することはできない。
本稿では,与えられた文対における翻訳誤りの位置とタイプを識別することを目的とした,きめ細かい翻訳誤り検出(fg-ted)タスクを提案する。
さらに、FG-TEDモデルを構築して、通常の翻訳精度の2つのエラーである \textbf{addition} と \textbf{omission} のエラーを予測する。
まず,単語レベルの分類パラダイムを用いてモデルを形成し,近距離学習の削減により単言語的特徴の影響を緩和する。
さらに、モデルトレーニングのための合成データセットを構築し、権威的データセットにおけるデータラベリングの不一致を解消し、実験的なベンチマークを一致させる。
実験の結果,本モデルはエラータイプと位置を同時に識別でき,復元されたデータセットに最先端の結果を与えることができた。
我々のモデルは、既存のベースラインよりも低リソースおよび転送シナリオの信頼性の高い予測も提供します。
関連するデータセットとソースコードは将来的にリリースされる予定だ。
関連論文リスト
- Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - xCOMET: Transparent Machine Translation Evaluation through Fine-grained
Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。
文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。
また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文 参考訳(メタデータ) (2023-10-16T15:03:14Z) - Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization [34.85353544844499]
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。
事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
論文 参考訳(メタデータ) (2023-05-26T00:18:33Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Correcting the Autocorrect: Context-Aware Typographical Error Correction
via Training Data Augmentation [38.10429793534442]
まず、スペルエラー統計を計算するために、注釈付きデータの小さなセットを描画する。
その後、エラーをはるかに大きなコーパスに導入するために、これらが呼び出される。
私たちは、英語のエラー検出と修正データセットのセットを作成するためにそれを使用します。
論文 参考訳(メタデータ) (2020-05-03T18:08:17Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。