論文の概要: Terminology-Aware Translation with Constrained Decoding and Large
Language Model Prompting
- arxiv url: http://arxiv.org/abs/2310.05824v1
- Date: Mon, 9 Oct 2023 16:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 06:38:41.772872
- Title: Terminology-Aware Translation with Constrained Decoding and Large
Language Model Prompting
- Title(参考訳): 制約付きデコードと大規模言語モデルプロンプトを用いた用語認識翻訳
- Authors: Nikolay Bogoychev and Pinzhen Chen
- Abstract要約: 我々は、WMT 2023用語翻訳タスクを提出する。
私たちは、ドメインに依存しない、最小限の手作業を必要とするトランスレーション-then-refineアプローチを採用しています。
その結果,我々の用語認識モデルは,効率的に用語を組み込むことができることがわかった。
- 参考スコア(独自算出の注目度): 11.264272119913311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Terminology correctness is important in the downstream application of machine
translation, and a prevalent way to ensure this is to inject terminology
constraints into a translation system. In our submission to the WMT 2023
terminology translation task, we adopt a translate-then-refine approach which
can be domain-independent and requires minimal manual efforts. We annotate
random source words with pseudo-terminology translations obtained from word
alignment to first train a terminology-aware model. Further, we explore two
post-processing methods. First, we use an alignment process to discover whether
a terminology constraint has been violated, and if so, we re-decode with the
violating word negatively constrained. Alternatively, we leverage a large
language model to refine a hypothesis by providing it with terminology
constraints. Results show that our terminology-aware model learns to
incorporate terminologies effectively, and the large language model refinement
process can further improve terminology recall.
- Abstract(参考訳): 用語の正確性は機械翻訳の下流への応用において重要であり、翻訳システムに用語の制約を注入することを保証する一般的な方法である。
WMT 2023 用語翻訳タスクへの提出では,ドメインに依存しない,手作業の最小限の作業を必要とする,翻訳対象の最小化アプローチを採用する。
単語アライメントから得られた疑似終端変換をランダムソース語にアノテートし,まず用語認識モデルを訓練する。
さらに,2つの後処理手法について検討する。
まず,ある用語制約が違反されているかどうかを判断するためにアライメントプロセスを使用し,その場合,違反する単語を負の制約で再復号する。
あるいは、大きな言語モデルを利用して、用語の制約を提供することで仮説を洗練します。
その結果,我々の用語認識モデルは,用語を効果的に取り入れることを学び,大規模言語モデルの改良プロセスは,用語認識の想起をさらに改善できることがわかった。
関連論文リスト
- Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation [0.0]
本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。
本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。
そこで我々は,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。
論文 参考訳(メタデータ) (2024-10-01T13:40:28Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Cascaded Beam Search: Plug-and-Play Terminology-Forcing For Neural
Machine Translation [11.902884131696783]
本稿では,用語制約付き翻訳のためのプラグイン・アンド・プレイ方式を提案する。
学習を必要としない用語強制アプローチであるカスケードビームサーチを提案する。
我々は,WMT21用語翻訳タスクの上位提案に対抗して,提案手法の性能を評価する。
論文 参考訳(メタデータ) (2023-05-23T21:48:02Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Lingua Custodia's participation at the WMT 2021 Machine Translation
using Terminologies shared task [3.3108924994485096]
私たちは英語からフランス語、ロシア語、中国語の3つの方向を考えます。
専門用語を扱うための標準手順に2つの大きな変更を加えます。
本手法は,翻訳品質を維持しつつ,ほとんどの用語制約を満たす。
論文 参考訳(メタデータ) (2021-11-03T10:36:32Z) - Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction [6.46964825569749]
本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:11:33Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Incorporating Terminology Constraints in Automatic Post-Editing [23.304864678067865]
語彙的に制約されたAPEに対する自己回帰モデルと非自己回帰モデルの両方を提示する。
提案手法により,95%の用語の保存が可能となり,英独ベンチマークの翻訳品質も向上する。
論文 参考訳(メタデータ) (2020-10-19T15:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。