論文の概要: Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models
- arxiv url: http://arxiv.org/abs/2305.13085v1
- Date: Mon, 22 May 2023 14:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:16:01.861182
- Title: Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた関連言語間の機械翻訳のための分解プロンプト
- Authors: Ratish Puduppully, Raj Dabre, Ai Ti Aw, Nancy F. Chen
- Abstract要約: 本稿では,翻訳過程を単語チャンク翻訳のシーケンスに分解する,数発のプロンプトの新たなアプローチを提案する。
我々のモデルはBLOOMモデルよりも優れており、調査対象言語全体で平均4.2 chrF++スコアが向上している。
- 参考スコア(独自算出の注目度): 36.946463942388796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates machine translation between related languages i.e.,
languages within the same family that share similar linguistic traits such as
word order and lexical similarity. Machine translation through few-shot
prompting leverages a small set of translation pair examples to generate
translations for test sentences. This requires the model to learn how to
generate translations while simultaneously ensuring that token ordering is
maintained to produce a fluent and accurate translation. We propose that for
related languages, the task of machine translation can be simplified by
leveraging the monotonic alignment characteristic of such languages. We
introduce a novel approach of few-shot prompting that decomposes the
translation process into a sequence of word chunk translations. Through
evaluations conducted on multiple related language pairs across various
language families, we demonstrate that our novel approach of decomposed
prompting surpasses multiple established few-shot baseline models, thereby
verifying its effectiveness. For example, our model outperforms the strong
few-shot prompting BLOOM model with an average improvement of 4.2 chrF++ scores
across the examined languages.
- Abstract(参考訳): 本研究は、単語の順序や語彙の類似性などの類似した言語特性を持つ同族言語間の機械翻訳について検討する。
数少ないプロンプトによる機械翻訳は、少数の翻訳ペアの例を利用して、テスト文の翻訳を生成する。
これは、モデルが翻訳の方法を学び、同時にトークンの順序が維持され、精巧で正確な翻訳が生成されることを保証する必要がある。
関連する言語では,そのような言語の単調なアライメント特性を利用することにより,機械翻訳のタスクを単純化できることを示す。
本稿では,翻訳過程を単語チャンク翻訳のシーケンスに分解する,数発のプロンプトの新たなアプローチを提案する。
本研究では,複数の言語群にまたがる複数の言語対について評価を行い,本手法が確立した複数個のマイナショットベースラインモデルを超えることを実証し,その効果を検証する。
例えば、我々のモデルはBLOOMモデルよりも優れており、調査対象言語全体で平均4.2 chrF++スコアが向上している。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Multilingual Mix: Example Interpolation Improves Multilingual Neural
Machine Translation [45.77509642452541]
インスタンスレベルで言語ペアを融合するために,多言語クロスオーバーエンコーダデコーダ(mXEncDec)を導入する。
提案手法は,言語間の入力空間と出力空間の共有を促進するために,異なる言語ペアのインスタンスを共同でクロスオーバー例に補間する。
論文 参考訳(メタデータ) (2022-03-15T03:56:22Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Towards Continual Learning for Multilingual Machine Translation via
Vocabulary Substitution [16.939016405962526]
多言語機械翻訳モデルの言語能力を拡張するための簡単な語彙適応スキームを提案する。
提案手法は大規模データセットに適合し,未知のスクリプトを持つ遠隔言語に適用し,元の言語ペアの翻訳性能をわずかに低下させるだけである。
論文 参考訳(メタデータ) (2021-03-11T17:10:21Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。