論文の概要: Compositional Translation: A Novel LLM-based Approach for Low-resource Machine Translation
- arxiv url: http://arxiv.org/abs/2503.04554v1
- Date: Thu, 06 Mar 2025 15:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:09.960369
- Title: Compositional Translation: A Novel LLM-based Approach for Low-resource Machine Translation
- Title(参考訳): 合成翻訳:低リソース機械翻訳のためのLLMに基づく新しいアプローチ
- Authors: Armel Zebaze, Benoît Sagot, Rachel Bawden,
- Abstract要約: 機械翻訳は、翻訳する文と意味的に類似している場合に、文脈内例の恩恵を受けることが示されている。
本稿では,LLMに基づく新しい翻訳パラダイムである合成翻訳を提案する。
私たちの直感は、これらの短いフレーズは本質的に翻訳が簡単で、関連する例と簡単に一致するので、このアプローチは翻訳を改善するべきだということです。
- 参考スコア(独自算出の注目度): 20.704153242284114
- License:
- Abstract: The ability of generative large language models (LLMs) to perform in-context learning has given rise to a large body of research into how best to prompt models for various natural language processing tasks. Machine Translation (MT) has been shown to benefit from in-context examples, in particular when they are semantically similar to the sentence to translate. In this paper, we propose a new LLM-based translation paradigm, compositional translation, to replace naive few-shot MT with similarity-based demonstrations. An LLM is used to decompose a sentence into simpler phrases, and then to translate each phrase with the help of retrieved demonstrations. Finally, the LLM is prompted to translate the initial sentence with the help of the self-generated phrase-translation pairs. Our intuition is that this approach should improve translation because these shorter phrases should be intrinsically easier to translate and easier to match with relevant examples. This is especially beneficial in low-resource scenarios, and more generally whenever the selection pool is small or out of domain. We show that compositional translation boosts LLM translation performance on a wide range of popular MT benchmarks, including FLORES 200, NTREX 128 and TICO-19. Code and outputs are available at https://github.com/ArmelRandy/compositional-translation
- Abstract(参考訳): 生成型大規模言語モデル(LLM)がコンテキスト内学習を行う能力は、様々な自然言語処理タスクのモデルをどのように促進するかについて、多くの研究を巻き起こした。
機械翻訳(MT)は、特に翻訳する文と意味的に類似している場合に、文脈内例の恩恵を受けることが示されている。
本稿では,LLMをベースとした新しい翻訳パラダイムであるコンポジション翻訳を提案する。
LLMは、文を単純なフレーズに分解し、各フレーズを検索されたデモンストレーションの助けを借りて翻訳する。
最後に、LLMは、自己生成句翻訳ペアの助けを借りて、初期文の翻訳を促される。
私たちの直感は、これらの短いフレーズは本質的に翻訳が簡単で、関連する例と簡単に一致するので、このアプローチは翻訳を改善するべきだということです。
これは低リソースのシナリオで特に有用であり、より一般的には選択プールが小さく、ドメイン外であればいつでも有効です。
FLORES 200, NTREX 128, TICO-19など, 幅広いMTベンチマークにおいて, 合成翻訳によりLLM翻訳性能が向上することを示す。
コードと出力はhttps://github.com/ArmelRandy/compositional-translationで公開されている。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Large Language Models for Persian $ \leftrightarrow $ English Idiom Translation [5.689194193929357]
大規模言語モデル(LLM)は、ニューラルマシン翻訳(NMT)システムと比較して、図形言語を翻訳する優れた能力を示している。
本稿ではペルシャ語$rightarrow$ Englishと英語$rightarrow$Persian翻訳の慣用表現を含む2つのパラレルデータセットを紹介する。
オープンソースとクローズドソースのLLM, NMTモデルおよびそれらの組み合わせを評価した。
クロード3.5-ソネットは、両方の翻訳方向において優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-12-13T09:29:27Z) - Language Models and Cycle Consistency for Self-Reflective Machine Translation [1.79487674052027]
我々は、ソース言語Aからターゲット言語Bへの複数の翻訳候補を生成し、その後、これらの候補を元の言語Aに翻訳する。
トークンレベルの精度や精度などの指標を用いて、原文と裏文の周期一貫性を評価することにより、言語Bの翻訳品質を暗黙的に推定する。
各原文に対して、翻訳候補を、原文と最適なサイクル整合性で同定し、最終回答とする。
論文 参考訳(メタデータ) (2024-11-05T04:01:41Z) - Analyzing Context Contributions in LLM-based Machine Translation [21.95318929582271]
大規模言語モデル(LLM)は機械翻訳(MT)において最先端の性能を達成した
本研究は,LLM が翻訳文を生成する際に,少数ショット例やソーステキストなど,様々な文脈をどう利用するかを検討する。
我々の研究は、標準エンコーダ・デコーダMTモデルで知られているものを超えるLCMベースのMTの内部動作に光を当てた。
論文 参考訳(メタデータ) (2024-10-21T17:51:41Z) - IntGrad MT: Eliciting LLMs' Machine Translation Capabilities with Sentence Interpolation and Gradual MT [5.323504404265276]
大規模言語モデル(LLM)は、追加の並列コーパスを微調整することなく、翻訳において強力な性能を示している。
これまでの研究は、関連するいくつかの例や辞書や文法書などの外部リソースを活用することでこの問題を軽減することに重点を置いてきた。
本稿では,LLM固有の翻訳機能を完全に活用することを目的とした,IntGrad MTという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T15:26:28Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。