論文の概要: SiLLM: Large Language Models for Simultaneous Machine Translation
- arxiv url: http://arxiv.org/abs/2402.13036v1
- Date: Tue, 20 Feb 2024 14:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:53:52.979338
- Title: SiLLM: Large Language Models for Simultaneous Machine Translation
- Title(参考訳): SiLLM: 同時機械翻訳のための大規模言語モデル
- Authors: Shoutao Guo, Shaolei Zhang, Zhengrui Ma, Min Zhang, Yang Feng
- Abstract要約: 同時機械翻訳(SiMT)は、原文を読みながら翻訳を生成する。
既存のSiMT手法では、ポリシーを同時に決定し、翻訳を生成するために単一のモデルを採用している。
我々は2つのサブタスクを別々のエージェントに委譲するSiLLMを提案する。
- 参考スコア(独自算出の注目度): 41.303764786790616
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Simultaneous Machine Translation (SiMT) generates translations while reading
the source sentence, necessitating a policy to determine the optimal timing for
reading and generating words. Despite the remarkable performance achieved by
Large Language Models (LLM) across various NLP tasks, existing SiMT methods
predominantly focus on conventional transformers, employing a single model to
concurrently determine the policy and generate the translations. However, given
the complexity of SiMT, it is challenging to effectively address both tasks
with a single model. Therefore, there is a need to decouple the SiMT task into
policy-decision and translation sub-tasks. We propose SiLLM, which delegates
the two sub-tasks to separate agents, thereby incorporating LLM into SiMT. The
policy-decision agent is managed by a conventional SiMT model, responsible for
determining the translation policy. The translation agent, leveraging the
capabilities of LLM, generates translation using the partial source sentence.
The two agents collaborate to accomplish SiMT. To facilitate the application of
token-level policies determined by conventional SiMT models to LLM, we propose
a word-level policy adapted for LLM. Experiments on two datasets demonstrate
that, with a small amount of data for fine-tuning LLM, SiLLM attains
state-of-the-art performance.
- Abstract(参考訳): 同時機械翻訳(SiMT)は、原文を読みながら翻訳を生成し、単語の読み書きに最適なタイミングを決定するためのポリシーを必要とする。
LLM(Large Language Models)が様々なNLPタスクで達成した顕著な性能にもかかわらず、既存のSiMTメソッドは主に従来のトランスフォーマーに重点を置いており、ポリシーを同時に決定し、翻訳を生成するために単一のモデルを採用している。
しかし、simtの複雑さを考えると、両方のタスクを単一のモデルで効果的に扱うのは困難である。
したがって、SiMTタスクをポリシー決定と翻訳サブタスクに分離する必要がある。
本稿では,2つのサブタスクを分離エージェントに委譲するSiLLMを提案する。
ポリシー決定エージェントは、従来のSiMTモデルによって管理され、翻訳ポリシーを決定する。
LLMの機能を利用する翻訳エージェントは、部分的ソース文を用いた翻訳を生成する。
2人のエージェントはSiMTを達成するために協力します。
従来の SiMT モデルによって決定されるトークンレベルポリシーを LLM に適用するために, LLM に適応したワードレベルポリシーを提案する。
2つのデータセットの実験では、微調整LDMのデータが少ないため、SiLLMは最先端のパフォーマンスを実現する。
関連論文リスト
- Meta-Task Prompting Elicits Embedding from Large Language Models [57.50329659098592]
本稿では,新しい教師なし埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを提案する。
モデル微調整やタスク固有のエンジニアリングを必要とせずに、大規模言語モデルから高品質な文の埋め込みを生成する。
実験により, 各種メタタスクから平均化された埋め込みは, セマンティックテキスト類似度ベンチマーク上での競合性能を示すことを示した。
本研究は, 埋込抽出のための多用途, 資源効率のよい手法を提供する, 埋込生成のための新しいスケーリング法則を示唆する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - DeMPT: Decoding-enhanced Multi-phase Prompt Tuning for Making LLMs Be
Better Context-aware Translators [27.813977167057892]
DeMPT(Decoding-enhanced Multi-phase Prompt Tuning)という適応手法を提案する。
各フェーズで異なる連続プロンプトを導入し、LLMを様々な情報を識別的にモデル化する。
実験の結果,本手法は結合法よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-02-23T09:01:00Z) - TransLLaMa: LLM-based Simultaneous Translation System [18.27477980076409]
Decoderのみの大規模言語モデル(LLM)は,特別な"待機"トークンを生成することで,入力セグメンテーションを直接制御できることを示す。
これにより、別個の政策の必要性が排除され、LLMは英語とドイツ語と英語とロシア語のSiMTタスクを実行できるようになる。
また, GPT-4 などのクローズドソースモデルの評価を行い, 事前訓練をせずに SiMT タスクの実行を奨励する結果を示した。
論文 参考訳(メタデータ) (2024-02-07T07:39:27Z) - Adapting Large Language Models for Document-Level Machine Translation [49.74879186939818]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。
近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Simul-LLM: A Framework for Exploring High-Quality Simultaneous
Translation with Large Language Models [5.228973028299169]
数十億のパラメータを持ち、大量のデータに事前訓練された大規模言語モデル(LLM)は、さまざまな下流自然言語処理タスクにおいて、最先端の性能に近いかそれ以上の性能を持つようになった。
Simul-LLMは、SimulMTにフォーカスしたLLMのためのオープンソースのファインチューニングおよび評価パイプライン開発フレームワークである。
論文 参考訳(メタデータ) (2023-12-07T20:42:05Z) - Improving Machine Translation with Large Language Models: A Preliminary
Study with Cooperative Decoding [78.66926087162672]
まず,MT 指向 LLM と MT 指向 LLM の長所と短所を総合的に解析し,その長所と短所について検討する。
これらの知見に基づいて,NMT システムを事前翻訳モデルとして,MT 指向 LLM を補足解として扱う Cooperative Decoding (CoDec) を提案する。
WMT22テストセットと新たに収集されたテストセットWebCrawlの結果は、CoDecの有効性と効率を実証している。
論文 参考訳(メタデータ) (2023-11-06T03:41:57Z) - Chain-of-Thought Tuning: Masked Language Models can also Think Step By
Step in Natural Language Understanding [25.36416774024584]
Chain-of-Thought (CoT) は、Large Language Models (LLM) を自然言語形式の中間段階を通して多段階の推論へと導く技術である。
本稿では,即時チューニングに基づく2段階の推論フレームワークとしてChain-of-Thought (CoTT)を提案する。
論文 参考訳(メタデータ) (2023-10-18T05:39:20Z) - Tuning Large language model for End-to-end Speech Translation [7.297914077124909]
本稿では,E2E-STタスクを最適化した大規模マルチモーダルモデルであるLSTを紹介する。
MuST-C 音声翻訳ベンチマークの実験結果は、En-De/En-Fr/En-Es 言語ペアの LST-13B BLEU スコアが 30.39/41.55/35.33 であり、以前のモデルを超え、新しい最先端技術を確立したことを示している。
論文 参考訳(メタデータ) (2023-10-03T13:43:50Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。
CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。
条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。