論文の概要: Simultaneous Machine Translation with Large Language Models
- arxiv url: http://arxiv.org/abs/2309.06706v2
- Date: Thu, 15 Feb 2024 06:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 21:17:22.268552
- Title: Simultaneous Machine Translation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた同時機械翻訳
- Authors: Minghan Wang, Jinming Zhao, Thuy-Trang Vu, Fatemeh Shiri, Ehsan
Shareghi, Gholamreza Haffari
- Abstract要約: 我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 51.470478122113356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world simultaneous machine translation (SimulMT) systems face more
challenges than just the quality-latency trade-off. They also need to address
issues related to robustness with noisy input, processing long contexts, and
flexibility for knowledge injection. These challenges demand models with strong
language understanding and generation capabilities which may not often equipped
by dedicated MT models. In this paper, we investigate the possibility of
applying Large Language Models (LLM) to SimulMT tasks by using existing
incremental-decoding methods with a newly proposed RALCP algorithm for latency
reduction. We conducted experiments using the \texttt{Llama2-7b-chat} model on
nine different languages from the MUST-C dataset. The results show that LLM
outperforms dedicated MT models in terms of BLEU and LAAL metrics. Further
analysis indicates that LLM has advantages in terms of tuning efficiency and
robustness. However, it is important to note that the computational cost of LLM
remains a significant obstacle to its application in SimulMT.\footnote{We will
release our code, weights, and data with publication.}
- Abstract(参考訳): 実世界の同時機械翻訳(SimulMT)システムは、単に品質とレイテンシのトレードオフ以上の課題に直面している。
また、ノイズの多い入力、長いコンテキストの処理、知識注入の柔軟性に関する問題にも対処する必要があります。
これらの課題は、強力な言語理解と生成能力を持つモデルを必要とする。
本稿では,新たに提案された RALCP アルゴリズムを用いて,既存のインクリメンタルデコーディング手法を用いて,SimulMT タスクにLarge Language Models (LLM) を適用する可能性を検討する。
must-cデータセットから9つの異なる言語で \texttt{llama2-7b-chat}モデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
さらなる分析は、LLMがチューニング効率とロバストネスの点で有利であることを示している。
しかし、LLMの計算コストは、SimulMTにおけるその応用にとって大きな障害であり続けている点に注意する必要がある。
コード、重み、データを公開と共にリリースします。
}
関連論文リスト
- Can General-Purpose Large Language Models Generalize to English-Thai Machine Translation ? [2.1969983462375318]
大規模言語モデル(LLM)は、一般的なタスクではうまく機能するが、低リソースおよび低計算環境での一般化に苦慮する。
本研究は,英語-タイ語機械翻訳とコードスイッチングデータセット上で,様々なLLMと特殊翻訳モデルをテストすることにより,この制限を検証した。
論文 参考訳(メタデータ) (2024-10-22T16:26:03Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Self-Distillation for Model Stacking Unlocks Cross-Lingual NLU in 200+ Languages [2.53740603524637]
機械翻訳モデル(MT)は優れた多言語表現を生成し、低リソース言語でも強力な翻訳性能が得られる。
本研究は,MTエンコーダをサンプル効率のよい自己蒸留法により,言語バックボーンに直接組み込むことにより,両世界のベストを得られる。
MT-LLMは、MTエンコーダから固有の多言語表現アライメントを保持しており、低リソース言語は英語中心のLLMに埋め込まれた豊富な知識を取り入れることができる。
論文 参考訳(メタデータ) (2024-06-18T16:00:20Z) - Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression [40.4998607679863]
大規模言語モデル(LLM)は、ドメイン固有のデータに対して、事前訓練後または監督された微調整後(SFT)において、破滅的な忘れ込みに悩まされることが多い。
本稿では,TG-SFTに着目し,SFTデータを合成的に生成する。
論文 参考訳(メタデータ) (2024-06-17T09:17:40Z) - Simul-LLM: A Framework for Exploring High-Quality Simultaneous Translation with Large Language Models [4.873927154453253]
数十億のパラメータを持ち、大量のデータに事前訓練された大規模言語モデル(LLM)は、さまざまな下流自然言語処理タスクにおいて、最先端の性能に近いかそれ以上の性能を持つようになった。
Simul-LLMは、SimulMTにフォーカスしたLLMのためのオープンソースのファインチューニングおよび評価パイプライン開発フレームワークである。
論文 参考訳(メタデータ) (2023-12-07T20:42:05Z) - Improving Machine Translation with Large Language Models: A Preliminary Study with Cooperative Decoding [73.32763904267186]
大きな言語モデル(LLM)は、優れた翻訳品質を達成する可能性を示す。
我々は,NMTシステムを事前翻訳モデルとして扱うCooperative Decoding(CoDec)と,MT指向LLMを補足解として提案する。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。