Fugu-MT 論文翻訳(概要): Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding

論文の概要: Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding

arxiv url: http://arxiv.org/abs/2502.11517v1
Date: Mon, 17 Feb 2025 07:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.137983
Title: Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding
Title（参考訳）: 約束を守るための学習:学習された非同期デコーディングによる言語モデルデコーディングのスケーリング
Authors: Tian Jin, Ellie Y. Cheng, Zack Ankner, Nikunj Saunshi, Blake M. Elias, Amir Yazdanbakhsh, Jonathan Ragan-Kelley, Suvinay Subramanian, Michael Carbin,
Abstract要約: PASTAは、大規模言語モデルにセマンティックな独立性を識別し、独自の応答で並列デコーディングの機会を表現するための学習ベースのシステムである。 PASTA-Langは、LLMが自身の応答でセマンティックな独立性を表現することができるアノテーション言語である。本研究は,2.2%から7.1%の品質変化を伴う1.21xから1.93xまでの幾何平均スピードアップを,逐次デコードベースラインに対する長さ制御ウィンドレートで測定した。
参考スコア（独自算出の注目度）: 26.571743941748238
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Decoding with autoregressive large language models (LLMs) traditionally occurs sequentially, generating one token after another. An emerging line of work explored parallel decoding by identifying and simultaneously generating semantically independent chunks of LLM responses. However, these techniques rely on hand-crafted heuristics tied to syntactic structures like lists and paragraphs, making them rigid and imprecise. We present PASTA, a learning-based system that teaches LLMs to identify semantic independence and express parallel decoding opportunities in their own responses. At its core are PASTA-LANG and its interpreter: PASTA-LANG is an annotation language that enables LLMs to express semantic independence in their own responses; the language interpreter acts on these annotations to orchestrate parallel decoding on-the-fly at inference time. Through a two-stage finetuning process, we train LLMs to generate PASTA-LANG annotations that optimize both response quality and decoding speed. Evaluation on AlpacaEval, an instruction following benchmark, shows that our approach Pareto-dominates existing methods in terms of decoding speed and response quality; our results demonstrate geometric mean speedups ranging from 1.21x to 1.93x with corresponding quality changes of +2.2% to -7.1%, measured by length-controlled win rates against sequential decoding baseline.
Abstract（参考訳）: 自己回帰型大規模言語モデル(LLM)による復号は伝統的に順次発生し、1つのトークンが次々に生成される。 LLM応答のセマンティックな独立なチャンクを特定し、同時に生成することで、並列デコーディングを探求した。しかし、これらの技法はリストや段落のような構文構造に結びついた手作りのヒューリスティックに依存しており、厳密で不正確である。 PASTAは,LLMに対して,意味的独立性を識別し,並列復号化の機会を自己の応答で表現する学習システムである。 PASTA-LANGは、LPMが自身の応答でセマンティックな独立性を表現することができるアノテーション言語である。 2段階のファインタニングプロセスを通じて,応答品質と復号速度の両方を最適化する PASTA-LANG アノテーションを生成するために LLM を訓練する。提案手法は,2.2%から7.1%の品質変化を伴う1.21xから1.93xまでの幾何平均速度を,逐次復号ベースラインに対する長周期制御の勝利率で測定した。

関連論文リスト

CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文参考訳（メタデータ） (2025-08-04T08:28:25Z)
DecoRTL: A Run-time Decoding Framework for RTL Code Generation with LLMs [0.0]
大規模言語モデル (LLM) は構造的あいまいさや意味的複雑さの領域において信頼性が低いことを示す。本稿では,新しい実行時デコーディング戦略であるDecoRTLを紹介する。私たちのアプローチは、追加のモデル微調整を必要とせずに、完全に推論時に動作します。
論文参考訳（メタデータ） (2025-07-03T01:17:44Z)
PARALLELPROMPT: Extracting Parallelism from Large Language Model Queries [16.40921376558516]
本稿では,自然ユーザプロンプトにおけるクエリ内並列性を測定する最初のベンチマークであるPARALLELPROMPTを紹介する。我々のデータセットは、パブリックなLLMチャットログから37,000以上の実世界のプロンプトで構成されています。並列戦略とシリアル戦略をベンチマークし、レイテンシ、構造的忠実度、セマンティック忠実度を計測する実行スイートを提供する。
論文参考訳（メタデータ） (2025-06-23T15:05:54Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文参考訳（メタデータ） (2024-12-11T18:59:33Z)
CLLMs: Consistency Large Language Models [18.17892007267927]
Jacobiデコーディングは、従来の自己回帰(AR)デコーディングと比較して、ほとんどスピードアップしない。ヤコビ軌道上の任意の状態から固定点への高速収束を実現するための新しいアプローチを開発する。
論文参考訳（メタデータ） (2024-02-28T20:17:04Z)
Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。 textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文参考訳（メタデータ） (2024-02-19T03:39:10Z)
Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding [46.485363806259265]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文参考訳（メタデータ） (2024-01-15T17:26:50Z)
Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文参考訳（メタデータ） (2023-12-21T05:32:49Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文参考訳（メタデータ） (2023-09-19T11:10:50Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)
Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文参考訳（メタデータ） (2022-01-06T10:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。