論文の概要: Efficient Machine Translation Corpus Generation
- arxiv url: http://arxiv.org/abs/2306.11838v1
- Date: Tue, 20 Jun 2023 18:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 16:05:58.113148
- Title: Efficient Machine Translation Corpus Generation
- Title(参考訳): 効率的な機械翻訳コーパス生成
- Authors: Kamer Ali Yuksel, Ahmet Gunduz, Shreyas Sharma, Hassan Sawaf
- Abstract要約: 提案手法は,言語学者が編集後実施するカスタムMT品質評価指標のオンライントレーニングに基づく。
オンライン推定器は、後編集の悪い仮説を優先順位付けし、後編集なしで最良の仮説を自動クローズするために用いられる。
- 参考スコア(独自算出の注目度): 3.441021278275805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes an efficient and semi-automated method for
human-in-the-loop post-editing for machine translation (MT) corpus generation.
The method is based on online training of a custom MT quality estimation metric
on-the-fly as linguists perform post-edits. The online estimator is used to
prioritize worse hypotheses for post-editing, and auto-close best hypotheses
without post-editing. This way, significant improvements can be achieved in the
resulting quality of post-edits at a lower cost due to reduced human
involvement. The trained estimator can also provide an online sanity check
mechanism for post-edits and remove the need for additional linguists to review
them or work on the same hypotheses. In this paper, the effect of prioritizing
with the proposed method on the resulting MT corpus quality is presented versus
scheduling hypotheses randomly. As demonstrated by experiments, the proposed
method improves the lifecycle of MT models by focusing the linguist effort on
production samples and hypotheses, which matter most for expanding MT corpora
to be used for re-training them.
- Abstract(参考訳): 本稿では,機械翻訳コーパス生成のためのヒューマン・イン・ザ・ループ・ポスト編集手法を提案する。
本手法は,言語学者がポストエジットを行う場合の,カスタムMT品質評価指標のオンライントレーニングに基づく。
オンライン推定器は、後編集の悪い仮説を優先順位付けし、後編集なしで最良の仮説を自動クローズするために用いられる。
このようにして、人間の関与が減り、結果として得られるポストエディタの品質を低コストで向上させることができる。
トレーニングされた推定器は、編集後のオンライン衛生チェックメカニズムを提供し、それらを確認するための追加の言語学者や同じ仮説に取り組む必要をなくすこともできる。
本稿では,提案手法による優先順位付けがMTコーパスの品質に及ぼす影響をランダムに予測した場合と比較する。
実験によって実証されたように,提案手法は,MTコーパスを拡張して再学習する上で最も重要である生産サンプルと仮説に言語的取り組みを集中させることにより,MTモデルのライフサイクルを改善する。
関連論文リスト
- Cross-lingual Human-Preference Alignment for Neural Machine Translation with Direct Quality Optimization [4.993565079216378]
ニューラルネットワーク翻訳(NMT)へのタスクアライメントの適用は,NMTにおける既存のタスクデータミスマッチに対処することを示す。
人選好のプロキシとして,事前学習された翻訳品質推定モデルを活用するDPOの変種であるダイレクト品質最適化(DQO)を導入する。
論文 参考訳(メタデータ) (2024-09-26T09:32:12Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Computer Assisted Translation with Neural Quality Estimation and
Automatic Post-Editing [18.192546537421673]
本稿では,機械翻訳出力の品質推定と自動編集のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のゴールは、誤り訂正の提案を提供することであり、解釈可能なモデルにより、人間の翻訳者の負担を軽減することである。
論文 参考訳(メタデータ) (2020-09-19T00:29:00Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z) - Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。
本稿では,RTTベースのQEにセマンティック埋め込みを適用する。
提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文 参考訳(メタデータ) (2020-04-29T03:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。