論文の概要: Cascaded Beam Search: Plug-and-Play Terminology-Forcing For Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2305.14538v1
- Date: Tue, 23 May 2023 21:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 21:35:52.876099
- Title: Cascaded Beam Search: Plug-and-Play Terminology-Forcing For Neural
Machine Translation
- Title(参考訳): カスケードビーム探索: ニューラルネットワーク翻訳のためのプラグ・アンド・プレイ語法
- Authors: Fr\'ed\'eric Odermatt and B\'eni Egressy and Roger Wattenhofer
- Abstract要約: 本稿では,用語制約付き翻訳のためのプラグイン・アンド・プレイ方式を提案する。
学習を必要としない用語強制アプローチであるカスケードビームサーチを提案する。
我々は,WMT21用語翻訳タスクの上位提案に対抗して,提案手法の性能を評価する。
- 参考スコア(独自算出の注目度): 11.902884131696783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a plug-and-play approach for translation with terminology
constraints. Terminology constraints are an important aspect of many modern
translation pipelines. In both specialized domains and newly emerging domains
(such as the COVID-19 pandemic), accurate translation of technical terms is
crucial. Recent approaches often train models to copy terminologies from the
input into the output sentence by feeding the target terminology along with the
input. But this requires expensive training whenever the underlying language
model is changed or the system should specialize to a new domain. We propose
Cascade Beam Search, a plug-and-play terminology-forcing approach that requires
no training. Cascade Beam Search has two parts: 1) logit manipulation to
increase the probability of target terminologies and 2) a cascading beam setup
based on grid beam search, where beams are grouped by the number of
terminologies they contain. We evaluate the performance of our approach by
competing against the top submissions of the WMT21 terminology translation
task. Our plug-and-play approach performs on par with the winning submissions
without using a domain-specific language model and with no additional training.
- Abstract(参考訳): 本稿では,用語制約付き翻訳のためのプラグアンドプレイ方式を提案する。
用語の制約は多くの現代翻訳パイプラインの重要な側面である。
専門ドメインと新興ドメイン(新型コロナウイルスのパンデミックなど)では、技術的用語の正確な翻訳が重要である。
近年のアプローチでは、入力と共に対象用語を入力として入力から出力文にコピーするモデルがしばしば訓練されている。
しかし、基礎となる言語モデルが変更されたり、システムが新しいドメインに特化すべき時に、高価なトレーニングが必要になる。
本研究では,訓練を必要とせず,プラグ・アンド・プレイの用語検索手法であるカスケードビーム探索を提案する。
Cascade Beam Searchには2つの部分がある。
1)対象用語の確率を増加させるためのロジット操作
2) グリッドビームサーチに基づくカスケーディングビームのセットアップでは, ビームが含む用語の数によってグループ化される。
我々は,WMT21用語翻訳タスクの上位課題に対抗して提案手法の性能を評価する。
我々のプラグイン・アンド・プレイ方式は、ドメイン固有の言語モデルを用いることなく、追加のトレーニングも行わずに、入賞申請と同等に動作する。
関連論文リスト
- Efficient Terminology Integration for LLM-based Translation in Specialized Domains [0.0]
特許、金融、バイオメディカルドメインなどの専門分野において、用語は翻訳に不可欠である。
本稿では,用語翻訳の精度を保ちながら,少ない量のデータで効率的にモデルを訓練する手法を提案する。
この手法は、専門用語を扱うモデルの能力を高め、高品質な翻訳を保証する。
論文 参考訳(メタデータ) (2024-10-21T07:01:25Z) - Plug, Play, and Fuse: Zero-Shot Joint Decoding via Word-Level Re-ranking Across Diverse Vocabularies [12.843274390224853]
マルチモーダル翻訳のような現実世界のタスクは、翻訳と画像処理の両方を扱うなど、これらの強みの組み合わせを必要とすることが多い。
新たなゼロショットアンサンブル戦略を提案し,デコードフェーズにおいて,追加のトレーニングを必要とせずに,異なるモデルの統合を可能にする。
提案手法では,単語レベルでのスコアを組み合わせ,単語がいつ完了するかをマルチモーダルで予測することで,復号中にビームを再ランクする。
論文 参考訳(メタデータ) (2024-08-21T04:20:55Z) - Terminology-Aware Translation with Constrained Decoding and Large
Language Model Prompting [11.264272119913311]
我々は、WMT 2023用語翻訳タスクを提出する。
私たちは、ドメインに依存しない、最小限の手作業を必要とするトランスレーション-then-refineアプローチを採用しています。
その結果,我々の用語認識モデルは,効率的に用語を組み込むことができることがわかった。
論文 参考訳(メタデータ) (2023-10-09T16:08:23Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - CUNI systems for WMT21: Terminology translation Shared Task [0.0]
本研究の目的は、提供された用語データベースに基づいて特定の用語を翻訳するシステムを設計することである。
提案手法は,入力文とともに所望の翻訳を提供し,提案した用語を使用するようにモデルを訓練することに基づいている。
トレーニング中も推論中も用語を補足し、モデルが単語の表面形状を正しく生成する方法を学習できるようにする。
論文 参考訳(メタデータ) (2021-09-20T08:05:39Z) - Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction [6.46964825569749]
本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:11:33Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。