論文の概要: Prompting Large Language Models with Human Error Markings for Self-Correcting Machine Translation
- arxiv url: http://arxiv.org/abs/2406.02267v1
- Date: Tue, 4 Jun 2024 12:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 16:32:17.836655
- Title: Prompting Large Language Models with Human Error Markings for Self-Correcting Machine Translation
- Title(参考訳): 自動修正機械翻訳のためのヒューマンエラーマーキングを用いた大規模言語モデルの提案
- Authors: Nathaniel Berger, Stefan Riezler, Miriam Exel, Matthias Huck,
- Abstract要約: 後編集(PE)は、エラーを訂正し、専門ドメインの項翻訳品質を高めるために依然として必要である。
技術的領域における正しい一貫した項翻訳の必要性に対する翻訳記憶(TM)の強化に関するパイロット研究について述べる。
- 参考スコア(独自算出の注目度): 11.351365352611658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) pre-trained on massive amounts of unpaired language data have reached the state-of-the-art in machine translation (MT) of general domain texts, post-editing (PE) is still required to correct errors and to enhance term translation quality in specialized domains. In this paper we present a pilot study of enhancing translation memories (TM) produced by PE (source segments, machine translations, and reference translations, henceforth called PE-TM) for the needs of correct and consistent term translation in technical domains. We investigate a light-weight two-step scenario where, at inference time, a human translator marks errors in the first translation step, and in a second step a few similar examples are extracted from the PE-TM to prompt an LLM. Our experiment shows that the additional effort of augmenting translations with human error markings guides the LLM to focus on a correction of the marked errors, yielding consistent improvements over automatic PE (APE) and MT from scratch.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、大量の未ペア言語データに基づいて事前訓練され、一般的なドメインテキストの機械翻訳(MT)の最先端に達したが、後編集(PE)はエラーの修正と専門ドメインの項翻訳品質の向上に依然として必要である。
本稿では,PE(ソースセグメント,機械翻訳,参照翻訳)が生成する翻訳記憶(TM)を,技術的領域における正確かつ一貫した用語翻訳の必要性に対して向上させるパイロットスタディを提案する。
そこで本研究では,人間の翻訳者が第1の翻訳ステップでエラーをマークし,第2のステップでPE-TMから類似したサンプルを抽出し,LSMを誘導する,軽量な2段階シナリオについて検討する。
実験の結果,ヒトの誤りマークによる翻訳の強化により,LLMはマークされた誤りの訂正に焦点を合わせ,自動PE(APE)とMTをゼロから一貫した改善が得られた。
関連論文リスト
- Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing [39.375342978538654]
機械翻訳を行うためにLLM(Large Language Models)を活用することに注力する。
誤りの2つのパターンが頻繁に発生し、言語ミスマッチと繰り返しの翻訳品質に劇的な影響を与えていることを観察する。
モデル編集手法を活用することにより,これらの2つの問題を緩和する可能性について検討する。
論文 参考訳(メタデータ) (2024-10-09T16:51:21Z) - Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。
我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。
本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文 参考訳(メタデータ) (2024-05-29T09:25:49Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た
我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文 参考訳(メタデータ) (2024-02-26T07:58:12Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - ParroT: Translating during Chat using Large Language Models tuned with
Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。
具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。
本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文 参考訳(メタデータ) (2023-04-05T13:12:00Z) - Automatic Correction of Human Translations [8.137198664755598]
人為的な翻訳を自動的に修正するタスクである翻訳誤り訂正(TEC)を導入する。
TECのヒューマンエラーは、自動編集後データセットのMTエラーよりも多種多様なエラーを示し、翻訳エラーははるかに少ないことを示す。
論文 参考訳(メタデータ) (2022-06-17T07:30:55Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。