論文の概要: Simultaneous Machine Translation with Large Language Models
- arxiv url: http://arxiv.org/abs/2309.06706v2
- Date: Thu, 15 Feb 2024 06:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 21:17:22.268552
- Title: Simultaneous Machine Translation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた同時機械翻訳
- Authors: Minghan Wang, Jinming Zhao, Thuy-Trang Vu, Fatemeh Shiri, Ehsan
Shareghi, Gholamreza Haffari
- Abstract要約: 我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 51.470478122113356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world simultaneous machine translation (SimulMT) systems face more
challenges than just the quality-latency trade-off. They also need to address
issues related to robustness with noisy input, processing long contexts, and
flexibility for knowledge injection. These challenges demand models with strong
language understanding and generation capabilities which may not often equipped
by dedicated MT models. In this paper, we investigate the possibility of
applying Large Language Models (LLM) to SimulMT tasks by using existing
incremental-decoding methods with a newly proposed RALCP algorithm for latency
reduction. We conducted experiments using the \texttt{Llama2-7b-chat} model on
nine different languages from the MUST-C dataset. The results show that LLM
outperforms dedicated MT models in terms of BLEU and LAAL metrics. Further
analysis indicates that LLM has advantages in terms of tuning efficiency and
robustness. However, it is important to note that the computational cost of LLM
remains a significant obstacle to its application in SimulMT.\footnote{We will
release our code, weights, and data with publication.}
- Abstract(参考訳): 実世界の同時機械翻訳(SimulMT)システムは、単に品質とレイテンシのトレードオフ以上の課題に直面している。
また、ノイズの多い入力、長いコンテキストの処理、知識注入の柔軟性に関する問題にも対処する必要があります。
これらの課題は、強力な言語理解と生成能力を持つモデルを必要とする。
本稿では,新たに提案された RALCP アルゴリズムを用いて,既存のインクリメンタルデコーディング手法を用いて,SimulMT タスクにLarge Language Models (LLM) を適用する可能性を検討する。
must-cデータセットから9つの異なる言語で \texttt{llama2-7b-chat}モデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
さらなる分析は、LLMがチューニング効率とロバストネスの点で有利であることを示している。
しかし、LLMの計算コストは、SimulMTにおけるその応用にとって大きな障害であり続けている点に注意する必要がある。
コード、重み、データを公開と共にリリースします。
}
関連論文リスト
- TransLLaMa: LLM-based Simultaneous Translation System [18.27477980076409]
Decoderのみの大規模言語モデル(LLM)は,特別な"待機"トークンを生成することで,入力セグメンテーションを直接制御できることを示す。
これにより、別個の政策の必要性が排除され、LLMは英語とドイツ語と英語とロシア語のSiMTタスクを実行できるようになる。
また, GPT-4 などのクローズドソースモデルの評価を行い, 事前訓練をせずに SiMT タスクの実行を奨励する結果を示した。
論文 参考訳(メタデータ) (2024-02-07T07:39:27Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Simul-LLM: A Framework for Exploring High-Quality Simultaneous
Translation with Large Language Models [5.228973028299169]
数十億のパラメータを持ち、大量のデータに事前訓練された大規模言語モデル(LLM)は、さまざまな下流自然言語処理タスクにおいて、最先端の性能に近いかそれ以上の性能を持つようになった。
Simul-LLMは、SimulMTにフォーカスしたLLMのためのオープンソースのファインチューニングおよび評価パイプライン開発フレームワークである。
論文 参考訳(メタデータ) (2023-12-07T20:42:05Z) - Improving Machine Translation with Large Language Models: A Preliminary
Study with Cooperative Decoding [78.66926087162672]
まず,MT 指向 LLM と MT 指向 LLM の長所と短所を総合的に解析し,その長所と短所について検討する。
これらの知見に基づいて,NMT システムを事前翻訳モデルとして,MT 指向 LLM を補足解として扱う Cooperative Decoding (CoDec) を提案する。
WMT22テストセットと新たに収集されたテストセットWebCrawlの結果は、CoDecの有効性と効率を実証している。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - A Mechanism for Solving Relational Tasks in Transformer Language Models [36.29933464955979]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスクを解くための単純な計算機構を利用する場合があることを示す。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。