論文の概要: Predictive Data Analytics with AI: assessing the need for post-editing
of MT output by fine-tuning OpenAI LLMs
- arxiv url: http://arxiv.org/abs/2308.00158v5
- Date: Wed, 8 Nov 2023 17:25:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 12:58:07.487774
- Title: Predictive Data Analytics with AI: assessing the need for post-editing
of MT output by fine-tuning OpenAI LLMs
- Title(参考訳): AIを用いた予測データ分析:微調整OpenAI LLMによるMT出力の後編集の必要性の評価
- Authors: Serge Gladkoff, Gleb Erofeev, Irina Sorokina, Lifeng Han, Goran
Nenadic
- Abstract要約: TQEは機械翻訳(MT)と人間翻訳(HT)の両方の品質を基準翻訳なしで評価する上で重要である。
この目的のために,最先端の大規模言語モデル (LLM) が利用できるかを検討する。
OpenAIモデルを最先端技術として捉え、バイナリ分類タスクとしてTQEにアプローチします。
- 参考スコア(独自算出の注目度): 7.319949517211021
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Translation Quality Evaluation (TQE) is an essential step of the modern
translation production process. TQE is critical in assessing both machine
translation (MT) and human translation (HT) quality without reference
translations. The ability to evaluate or even simply estimate the quality of
translation automatically may open significant efficiency gains through process
optimisation. This work examines whether the state-of-the-art large language
models (LLMs) can be used for this purpose. We take OpenAI models as the best
state-of-the-art technology and approach TQE as a binary classification task.
On eight language pairs including English to Italian, German, French, Japanese,
Dutch, Portuguese, Turkish, and Chinese, our experimental results show that
fine-tuned gpt3.5 can demonstrate good performance on translation quality
prediction tasks, i.e. whether the translation needs to be edited. Another
finding is that simply increasing the sizes of LLMs does not lead to apparent
better performances on this task by comparing the performance of three
different versions of OpenAI models: curie, davinci, and gpt3.5 with 13B, 175B,
and 175B parameters, respectively.
- Abstract(参考訳): 翻訳品質評価(TQE)は、現代翻訳生産プロセスにおける重要なステップである。
TQEは機械翻訳(MT)と人間翻訳(HT)の両方の品質を基準翻訳なしで評価する上で重要である。
翻訳の品質を自動的に評価または見積もる能力は、プロセスの最適化を通じて大幅な効率向上をもたらす可能性がある。
この目的のために,最先端の大規模言語モデル (LLM) が利用できるかを検討する。
OpenAIモデルを最先端技術として捉え、バイナリ分類タスクとしてTQEにアプローチします。
英語とイタリア語,ドイツ語,フランス語,日本語,オランダ語,ポルトガル語,トルコ語,中国語の8つの言語ペアにおいて,gpt3.5の微調整により,翻訳品質予測タスクにおいて優れた性能を示すことができた。
LLMのサイズを単純に増やすことで、OpenAIモデルの3つのバージョン(curie、davinci、gpt3.5、13B、175B、175B)のパフォーマンスを比較することで、このタスクにおけるパフォーマンスが向上するわけではない。
関連論文リスト
- Contextual Refinement of Translations: Large Language Models for
Sentence and Document-Level Post-Editing [14.030354616779327]
大規模言語モデル(LLM)は様々な自然言語処理タスクでかなりの成功を収めている。
彼らはまだ、ニューラルネットワーク翻訳における最先端のパフォーマンスを達成できていない。
ニューラルネットワーク翻訳におけるLLMの応用について検討し,近年のパラメータ効率向上技術について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。
本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。
品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文 参考訳(メタデータ) (2023-05-06T19:03:12Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Computer Assisted Translation with Neural Quality Estimation and
Automatic Post-Editing [18.192546537421673]
本稿では,機械翻訳出力の品質推定と自動編集のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のゴールは、誤り訂正の提案を提供することであり、解釈可能なモデルにより、人間の翻訳者の負担を軽減することである。
論文 参考訳(メタデータ) (2020-09-19T00:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。