論文の概要: Incorporating Terminology Constraints in Automatic Post-Editing
- arxiv url: http://arxiv.org/abs/2010.09608v1
- Date: Mon, 19 Oct 2020 15:44:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:49:13.870667
- Title: Incorporating Terminology Constraints in Automatic Post-Editing
- Title(参考訳): 自動編集における用語制約の導入
- Authors: David Wan, Chris Kedzie, Faisal Ladhak, Marine Carpuat and Kathleen
McKeown
- Abstract要約: 語彙的に制約されたAPEに対する自己回帰モデルと非自己回帰モデルの両方を提示する。
提案手法により,95%の用語の保存が可能となり,英独ベンチマークの翻訳品質も向上する。
- 参考スコア(独自算出の注目度): 23.304864678067865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users of machine translation (MT) may want to ensure the use of specific
lexical terminologies. While there exist techniques for incorporating
terminology constraints during inference for MT, current APE approaches cannot
ensure that they will appear in the final translation. In this paper, we
present both autoregressive and non-autoregressive models for lexically
constrained APE, demonstrating that our approach enables preservation of 95% of
the terminologies and also improves translation quality on English-German
benchmarks. Even when applied to lexically constrained MT output, our approach
is able to improve preservation of the terminologies. However, we show that our
models do not learn to copy constraints systematically and suggest a simple
data augmentation technique that leads to improved performance and robustness.
- Abstract(参考訳): 機械翻訳(MT)のユーザーは、特定の語彙用語の使用を確実にしたいかもしれない。
MTの推論中に用語制約を組み込む手法は存在するが、現在のAPEアプローチでは最終翻訳にそれらが現れることは保証できない。
本稿では,語彙制限された類人猿に対する自己回帰モデルと非自己回帰モデルの両方を示し,本手法が用語の95%の保存を可能にするとともに,英独ベンチマークの翻訳品質を向上させることを実証する。
語彙的に制約されたMT出力に適用しても,本手法は用語の保存を改善することができる。
しかし,本モデルでは,制約を体系的に模倣することを学ばず,性能と堅牢性の向上につながる単純なデータ拡張手法を提案する。
関連論文リスト
- Refining Translations with LLMs: A Constraint-Aware Iterative Prompting Approach [7.5069214839655345]
大言語モデル(LLM)は機械翻訳(MT)において顕著な熟練性を示している
本稿では,意味的正確性に不可欠なキーワードを優先することで,翻訳忠実度を高める多段階のプロンプトチェーンを提案する。
FLORES-200およびWMTデータセットのベースモデルとしてLlamaとQwenを使用した実験は、ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-11-13T05:40:24Z) - Efficient Terminology Integration for LLM-based Translation in Specialized Domains [0.0]
特許、金融、バイオメディカルドメインなどの専門分野において、用語は翻訳に不可欠である。
本稿では,用語翻訳の精度を保ちながら,少ない量のデータで効率的にモデルを訓練する手法を提案する。
この手法は、専門用語を扱うモデルの能力を高め、高品質な翻訳を保証する。
論文 参考訳(メタデータ) (2024-10-21T07:01:25Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation [0.0]
本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。
本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。
そこで我々は,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。
論文 参考訳(メタデータ) (2024-10-01T13:40:28Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Terminology-Aware Translation with Constrained Decoding and Large
Language Model Prompting [11.264272119913311]
我々は、WMT 2023用語翻訳タスクを提出する。
私たちは、ドメインに依存しない、最小限の手作業を必要とするトランスレーション-then-refineアプローチを採用しています。
その結果,我々の用語認識モデルは,効率的に用語を組み込むことができることがわかった。
論文 参考訳(メタデータ) (2023-10-09T16:08:23Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Rule-based Morphological Inflection Improves Neural Terminology
Translation [16.802947102163497]
ニューラルMT(NMT)にレムマ制約を組み込むモジュラーフレームワークを導入する。
これは、ソースコンテキストに基づいてターゲットのレムマ制約を屈折させる新しい言語間インフレクションモジュールに基づいている。
その結果,NMTモデルがニューラルモジュールよりも正確にレムマ制約を組み込むのに有効であり,トレーニングコストの低減を図り,既存のエンドツーエンドアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-10T02:06:48Z) - A Probabilistic Formulation of Unsupervised Text Style Transfer [128.80213211598752]
従来提案されていた非生成的手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。
観測された各シーケンスを生成する並列潜時シーケンスを仮定することにより、我々のモデルは、完全に教師なしの方法で、あるドメインから別のドメインへシーケンスを変換することを学ぶ。
論文 参考訳(メタデータ) (2020-02-10T16:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。