論文の概要: Adaptive Few-shot Prompting for Machine Translation with Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2501.01679v1
- Date: Fri, 03 Jan 2025 07:47:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:32.445122
- Title: Adaptive Few-shot Prompting for Machine Translation with Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルを用いた機械翻訳のための適応的なFew-shot Prompting
- Authors: Lei Tang, Jinghui Qin, Wenxuan Ye, Hao Tan, Zhijing Yang,
- Abstract要約: 文脈内学習を伴う大規模言語モデル(LLM)は、ニューラルマシン翻訳の処理において顕著な可能性を示している。
既存の証拠は、LLMはプロンプトに敏感であり、下流機械翻訳タスクの入力に固定プロンプトを適用するのが最適であることを示している。
本稿では,様々な入力文に対して適切な翻訳デモを自動的に選択するための適応的な数ショットプロンプトフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.88443566366613
- License:
- Abstract: Recently, Large language models (LLMs) with in-context learning have demonstrated remarkable potential in handling neural machine translation. However, existing evidence shows that LLMs are prompt-sensitive and it is sub-optimal to apply the fixed prompt to any input for downstream machine translation tasks. To address this issue, we propose an adaptive few-shot prompting (AFSP) framework to automatically select suitable translation demonstrations for various source input sentences to further elicit the translation capability of an LLM for better machine translation. First, we build a translation demonstration retrieval module based on LLM's embedding to retrieve top-k semantic-similar translation demonstrations from aligned parallel translation corpus. Rather than using other embedding models for semantic demonstration retrieval, we build a hybrid demonstration retrieval module based on the embedding layer of the deployed LLM to build better input representation for retrieving more semantic-related translation demonstrations. Then, to ensure better semantic consistency between source inputs and target outputs, we force the deployed LLM itself to generate multiple output candidates in the target language with the help of translation demonstrations and rerank these candidates. Besides, to better evaluate the effectiveness of our AFSP framework on the latest language and extend the research boundary of neural machine translation, we construct a high-quality diplomatic Chinese-English parallel dataset that consists of 5,528 parallel Chinese-English sentences. Finally, extensive experiments on the proposed diplomatic Chinese-English parallel dataset and the United Nations Parallel Corpus (Chinese-English part) show the effectiveness and superiority of our proposed AFSP.
- Abstract(参考訳): 近年、文脈内学習を伴うLarge Language Model (LLMs) は、ニューラルマシン翻訳の処理において顕著な可能性を示している。
しかし、既存の証拠は、LLMはプロンプトに敏感であり、下流機械翻訳タスクの入力に固定プロンプトを適用するのが最適であることを示している。
この問題に対処するために,様々な入力文に対して適切な翻訳デモを自動的に選択し,LLMの翻訳能力をさらに向上させるための適応型数ショットプロンプト(AFSP)フレームワークを提案する。
まず,LLMの埋め込みに基づく翻訳デモ検索モジュールを構築し,並列翻訳コーパスからトップkのセマンティックな翻訳デモを検索する。
セマンティックな実演検索に他の埋め込みモデルを使う代わりに、デプロイされたLLMの埋め込み層に基づくハイブリッドな実演検索モジュールを構築し、よりセマンティックな翻訳デモを検索するためのより良い入力表現を構築する。
そして、ソース入力とターゲット出力のセマンティック一貫性を向上するために、デプロイされたLLM自体に、翻訳デモの助けを借りてターゲット言語で複数の出力候補を生成し、それらの候補を再ランクさせます。
さらに、最新の言語におけるAFSPフレームワークの有効性をよりよく評価し、ニューラルマシン翻訳の研究境界を広げるために、5,528の中国語と英語の並行文からなる高品質な中国語と英語の並行データセットを構築した。
最後に,提案する外交日英並列データセットと国連パラレルコーパス(中英部分)に関する広範な実験により,提案するAFSPの有効性と優位性を示した。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。
SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。
この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:52:47Z) - GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators [45.49880507108965]
GenTranslate"は、N-bestリストの多種多様な翻訳バージョンからより良い結果を生成するために、大きな言語モデルの上に構築されている。
我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、N-best候補にリッチな情報を統合することができる。
論文 参考訳(メタデータ) (2024-02-10T07:20:49Z) - Machine Translation with Large Language Models: Prompt Engineering for
Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。
我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文 参考訳(メタデータ) (2024-01-16T15:16:34Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。