論文の概要: Self-Speculative Biased Decoding for Faster Live Translation
- arxiv url: http://arxiv.org/abs/2509.21740v1
- Date: Fri, 26 Sep 2025 01:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.104075
- Title: Self-Speculative Biased Decoding for Faster Live Translation
- Title(参考訳): 高速なライブ翻訳のための自己投機的バイアスデコーディング
- Authors: Linxiao Zeng, Haoyun Deng, Kangyuan Shu, Shizhen Wang,
- Abstract要約: Self-Speculative Biased Decodingは、一貫して成長する入力ストリームに対して、スクラッチから繰り返し出力を生成するのを避けるために設計された、新しい推論パラダイムである。
提案手法は,従来の自己回帰的再翻訳に比べて,品質を損なうことなく最大1.7倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have recently demonstrated impressive capabilities in various text generation tasks. However, it remains challenging to use them off-the-shelf in streaming applications (such as live translation), where the output must continually update as the input context expands, while still maintaining a reasonable computational cost to meet the latency requirement. In this work, we reexamine the re-translation approach to simultaneous translation and propose Self-Speculative Biased Decoding, a novel inference paradigm designed to avoid repeatedly generating output from scratch for a consistently growing input stream. We propose using the most recent output as a draft for the current growing input context. During the verification stage, the output will be biased towards the draft token for a higher draft acceptance rate. This strategy not only minimizes flickering that might distract users but also leads to higher speedups. Conventional decoding may take charge from the point of divergence after draft verification and continue until the end condition is met. Unlike existing speculative decoding strategies, our approach eliminates the need for draft computations, making it a model-agnostic and plug-and-play solution for accelerating latency-sensitive streaming applications. Experimental results on simultaneous text-to-text re-translation demonstrate that our approach achieves up to 1.7x speedup compared to conventional auto-regressive re-translation without compromising quality. Additionally, it significantly reduces flickering by 80% by incorporating the display-only mask-k technique.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、様々なテキスト生成タスクにおいて印象的な機能を示した。
しかし、ストリーミングアプリケーション(ライブ翻訳など)では、入力コンテキストが拡大するにつれて出力が継続的に更新されなければならないが、レイテンシの要件を満たすための適切な計算コストは維持されている。
本研究では、同時翻訳における再翻訳手法を再検討し、一貫した入力ストリームに対してスクラッチから繰り返し出力を発生させないよう設計された新しい推論パラダイムであるセルフスペクトルバイアスデコーディングを提案する。
最新の出力を現在の増加する入力コンテキストのドラフトとして使用することを提案する。
検証段階では、より高いドラフト受け入れ率のために、出力はドラフトトークンにバイアスされる。
この戦略は、ユーザーが気を散らす可能性のあるフリッカリングを最小限に抑えるだけでなく、スピードアップも促進する。
従来の復号法は、原案検証後に分岐点から担当し、最終条件が満たされるまで継続することができる。
既存の投機的復号化戦略とは違って,提案手法はドラフト計算の必要性を排除し,遅延に敏感なストリーミングアプリケーションを高速化するためのモデルに依存しない,プラグアンドプレイのソリューションとなる。
テキストからテキストへの同時翻訳実験の結果,従来の自動回帰翻訳に比べて1.7倍の高速化が達成された。
さらに、ディスプレイオンリーのマスク-k技術を取り入れることで、フリッカリングを80%削減する。
関連論文リスト
- Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Context-Aware Initialization for Reducing Generative Path Length in Diffusion Language Models [0.0]
DLLM(Large Language Models)は完全な並列トークン復号を可能にするが、推論時には実用的でないことが多い。
既存の加速法の多くは、改良された解法やサンプリング戦略を通じて、この生成軌道をより効率的にトラバースすることに焦点を当てている。
本稿では,軽量補助モデルから拡散初期化に事前条件付き事前条件を注入する学習自由インタフェースを提案する。
インジェクションされたプリエントは不完全であり、アンマスクのみのデコーディングは早期に過剰にコミットできるため、プリエントベースのリメイキング機構を事前の懐疑論の一形態として導入する。
論文 参考訳(メタデータ) (2025-12-22T03:45:04Z) - Steering Pretrained Drafters during Speculative Decoding [32.75269650141292]
投機的復号化は、生成を高速なドラフトと並列検証に分離することで言語モデル推論を加速する。
主な制限は、トークンの受け入れを制限し、全体的な有効性を低下させるドラフトラ検証ミスアライメントである。
検証器の隠れ状態から計算し,事前訓練されたドラフトアライメントに注入するステアリングベクトルという,軽量な動的アライメント機構を導入する。
提案手法では, 標準サンプリングでは35%, グリージーサンプリングでは22%, 無視可能な計算オーバーヘッドを発生させながら, 許容トークン数を最大35%向上させる。
論文 参考訳(メタデータ) (2025-11-13T00:58:32Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Overcoming Non-monotonicity in Transducer-based Streaming Generation [26.24357071901915]
本研究は,Transducerの復号と学習可能な単調な注意による入力ストリーム履歴を統合する。
提案手法は,フォワード・バックワードアルゴリズムを用いて,予測状態と入力タイムスタンプとのアライメントの後方確率を推定する。
実験によると、MonoAttn-Transducerはストリーミングシナリオにおける非モノトニックアライメントを効果的に処理している。
論文 参考訳(メタデータ) (2024-11-26T07:19:26Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Incremental Blockwise Beam Search for Simultaneous Speech Translation
with Controllable Quality-Latency Tradeoff [49.75167556773752]
ブロックワイズ・セルフアテンショナル・エンコーダ・モデル(英語版)は、同時音声翻訳において有望なエンドツーエンドのアプローチとして登場した。
本稿では、局所的な合意や品質レイテンシ制御のための$nのポリシーを組み込んだインクリメンタルなブロックワイドビームサーチを提案する。
論文 参考訳(メタデータ) (2023-09-20T14:59:06Z) - Look-back Decoding for Open-Ended Text Generation [62.53302138266465]
本研究では,現在の復号化過程と過去の復号化過程の分布距離を追跡する改良された復号化アルゴリズムであるLook-backを提案する。
ルックバックは、潜在的反復句とトピックドリフトを自動的に予測し、障害モードを引き起こす可能性のあるトークンを削除することができる。
文書の継続とストーリー生成に関する復号実験を行い、Look-backがより流動的で一貫性のあるテキストを生成することを実証する。
論文 参考訳(メタデータ) (2023-05-22T20:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。