論文の概要: Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM
- arxiv url: http://arxiv.org/abs/2604.16368v2
- Date: Tue, 21 Apr 2026 17:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.935504
- Title: Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM
- Title(参考訳): Apple 上でのポーランド語モデルに対するクロスファミリックな投機的デコード -Silicon: UAG-Extended MLX-LMによる Bielik~11B の実証評価-
- Authors: Krzysztof Fonal,
- Abstract要約: MLX-LMフレームワークをUniversal Assisted Generation (UAG)で拡張し、Apple Silicon上でクロストケナイザの投機的復号を可能にする。
ポーランド語の3つのデータセット(Wikipedia、pl_alpaca、synthetic)の実験では、2, 4, 6のドラフト長kを用いて、ナイーブとコンテキスト対応のトークン翻訳を比較している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates LLM inference by using a small draft model to propose k candidate tokens for a target model to verify. While effective for same-tokenizer pairs on high-bandwidth GPUs, its applicability to cross-family pairs with mismatched tokenizers and consumer-grade unified memory remains underexplored. We extend the MLX-LM framework with Universal Assisted Generation (UAG) to enable cross-tokenizer speculative decoding on Apple Silicon. We evaluate Bielik 11B-Instruct (Mistral-based) as the target model, paired with three draft models: Bielik 1.5B (Qwen-based with custom tokenizer), Qwen2.5-1.5B, and Llama 3.2-1B. Experiments on three Polish-language datasets (Wikipedia, pl_alpaca, synthetic) use draft lengths k in {2, 4, 6} to compare naive and context-aware token translation. Results show: (1) context-aware translation consistently improves acceptance rates across all configurations; (2) the Polish-specialized Bielik 1.5B achieves lower acceptance than general-purpose Qwen2.5 and Llama 3.2 drafters; (3) throughput on Apple Silicon is content-dependent, reaching 1.7x speedup for structured text but failing for varied instructions; and (4) verification cost on unified memory does not amortize as theory predicts because both models are memory-bandwidth bound, making sequential drafting expensive relative to batched verification. We propose a hardware-aware speedup formula and characterize conditions for cross-family speculative decoding on Apple Silicon. This is the first systematic evaluation of cross-family speculative decoding for Polish LLMs and the first empirical study of UAG-based decoding on unified memory architectures.
- Abstract(参考訳): 投機的復号化はLLM推論を小さなドラフトモデルを用いて高速化し、ターゲットモデルに対するk候補トークンの提案を行う。
高帯域GPU上で同じトケナイザペアに有効であるが、不正なトークンライザとコンシューマグレードの統一メモリとのクロスファミリーペアの適用性はまだ未定である。
MLX-LMフレームワークをUniversal Assisted Generation (UAG)で拡張し、Apple Silicon上でクロストケナイザの投機的復号を可能にする。
我々は, Bielik 11B-Instruct (Mistral-based) をターゲットモデルとして評価し, Bielik 1.5B (Qwen-based with custom tokenizer), Qwen2.5-1.5B, Llama 3.2-1B の3つのドラフトモデルと組み合わせた。
ポーランド語の3つのデータセット(Wikipedia、pl_alpaca、synthetic)の実験では、naive と context-aware のトークン翻訳を比較するために、 {2, 4, 6} のドラフト長 k を使用する。
その結果,(1) コンテクスト対応翻訳は,すべての構成における受入率を一貫して向上させる; (2) ポーランド特化Bielik 1.5Bは汎用的なQwen2.5やLlama 3.2のドラフトよりも低い受入率を達成する; 3) Apple Siliconのスループットはコンテンツ依存であり,構造化テキストでは1.7倍のスピードアップに達するが,さまざまな命令では失敗する;(4) 理論が予測するように,統一メモリの検証コストは記憶帯域境界であるので,いずれのモデルもバッチ検証に比べて高価である。
ハードウェア対応の高速化公式を提案し,Apple Silicon上でのクロスファミリー投機的復号化条件を特徴付ける。
これはポーランドのLLMにおけるクロスファミリー投機的復号法の最初の体系的評価であり、統一メモリアーキテクチャにおけるUAGに基づく復号法の最初の実証的研究である。
関連論文リスト
- BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs [0.0]
ゼロショットテキスト分類(ZSC)は、コストのかかるタスク固有のアノテーションを排除することを約束する。
テキスト埋め込みモデル、リランカ、命令調整型大規模言語モデル(LLM)の最近の進歩は、NLIベースのアーキテクチャの優位性に挑戦している。
我々は、感情、トピック、意図、感情の分類にまたがる22の公開データセットの総合ベンチマークであるBTZSCを紹介する。
論文 参考訳(メタデータ) (2026-03-12T14:43:20Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文 参考訳(メタデータ) (2025-11-04T02:37:37Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - SDSAT: Accelerating LLM Inference through Speculative Decoding with Semantic Adaptive Tokens [4.5888031410244885]
意味適応トークン(SDSAT)を用いた投機的復号化による大規模言語モデル(LLM)の高速化手法を提案する。
この設計の主な目的は、LLMモデルの精度を損なうことなく、より正確にドラフトトークンを生成する能力を高めることである。
CodeLlama-13B と 7B で実施された実験では、それぞれ3.5X と 3.0X 以上の速度向上が達成されている。
論文 参考訳(メタデータ) (2024-03-27T14:54:27Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。