論文の概要: Speculative Decoding Across Languages
- arxiv url: http://arxiv.org/abs/2605.30580v1
- Date: Thu, 28 May 2026 21:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.239059
- Title: Speculative Decoding Across Languages
- Title(参考訳): 言語間の投機的デコード
- Authors: Nirajan Paudel, Michael Ginn, Luc De Nardi, Alexis Palmer,
- Abstract要約: 11言語における投機的復号化効率を改善するための3つの戦略を比較した。
タスク固有の蒸留は効率を著しく向上させるが, 蒸留モデルでは新しいタスクへの一般化が不十分であることが判明した。
n-gramのドラフトモデルは、受け入れ率の低いにもかかわらず、ずっと高速なドラフト生成のために、常に大きなスピードアップを提供する。
- 参考スコア(独自算出の注目度): 6.674354285814964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding has become a crucial component of large language model (LLM) inference, enabling faster generation by drafting multiple tokens and verifying them in parallel. However, small draft models tend to suffer from disproportionately poor multilingual capabilities. Thus, when generating text in a non-English language, speculative decoding is far less effective. We compare three strategies to improve speculative decoding efficiency for eleven languages: finetuning the draft model on task-specific data (translation); finetuning the draft model on unlabeled monolingual corpora; and training simple n-gram draft models on the same monolingual corpora. We evaluate efficiency on translation (from English into the target language) and the held-out task of story generation. We find that while task-specific distillation can significantly improve efficiency, distilled models generalize poorly to a new task. Meanwhile, n-gram draft models, despite lower acceptance rates, consistently provide large speed-ups due to much faster draft generation.
- Abstract(参考訳): 投機的復号化は、大規模言語モデル(LLM)推論の重要なコンポーネントとなり、複数のトークンを起草し、それらを並列に検証することで、より高速な生成を可能にする。
しかし、小さなドラフトモデルは不当に多言語的能力に悩まされる傾向にある。
したがって、非英語でテキストを生成する場合、投機的復号化ははるかに効果が低い。
我々は11言語における投機的復号効率を改善するための3つの戦略を比較した。タスク固有データ(翻訳)のドラフトモデルを微調整すること、ラベルなしモノリンガルコーパスのドラフトモデルを微調整すること、同じモノリンガルコーパス上で単純なn-gramのドラフトモデルを訓練することである。
我々は,(英語から対象言語への)翻訳の効率とストーリー生成の保留課題を評価する。
タスク固有の蒸留は効率を著しく向上させるが, 蒸留モデルでは新しいタスクへの一般化が不十分であることが判明した。
一方、n-gramのドラフトモデルは、受け入れ率の低いにもかかわらず、ずっと高速なドラフト生成のために、常に大きなスピードアップを提供する。
関連論文リスト
- Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding [1.14219428942199]
ドラフト語彙を高いカバレッジで最大97%削減しながら、投機的復号化のスループットを向上させる。
ドメイン固有のタスクでは、レイテンシの最大16%の削減と20%のスループット改善を実現し、さまざまなアウト・オブ・ディストリビューションタスクで最大6.7%のスループット向上を実現しています。
論文 参考訳(メタデータ) (2026-03-05T14:20:22Z) - Parallel Universes, Parallel Languages: A Comprehensive Study on LLM-based Multilingual Counterfactual Example Generation [49.2073409243885]
大規模言語モデル(LLM)は、英語の対物生成に優れ、多言語習熟度を示す。
対象言語における直接生成された反事実と6言語間の英訳によって導出されるものの両方について自動評価を行う。
言語間で生成した偽物に一貫して現れる4つの主要なエラーを識別し分類する。
論文 参考訳(メタデータ) (2026-01-01T08:53:49Z) - Relay Decoding: Concatenating Large Language Models for Machine Translation [21.367605327742027]
我々はRD(Relay Decoding)と呼ばれる革新的なアプローチを提案し、ソースとターゲット言語を個別にサポートする2つの異なる大規模モデルを結合する。
これら2つのモデル間の接続を容易にするための単純なマッピング層を導入し、訓練に限られた並列データを活用することにより、機械翻訳タスクにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-05T13:42:25Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z) - Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。
このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T12:26:57Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Contextual Code Switching for Machine Translation using Language Models [1.4866655830571935]
大規模言語モデル(LLM)は近年,多種多様な言語関連タスクに多大な影響を与えている。
本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。
以上の結果から,LLMは特定のタスクに有望な結果をもたらすにもかかわらず,機械翻訳タスクにおける多言語大言語モデルよりも比較的少ない複雑性を持つモデルの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-12-20T16:40:33Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。