Fugu-MT 論文翻訳(概要): Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Based LLM Decoding

論文の概要: Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Based LLM Decoding

arxiv url: http://arxiv.org/abs/2512.23858v1
Date: Mon, 29 Dec 2025 20:51:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-01 23:27:28.211197
Title: Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Based LLM Decoding
Title（参考訳）: Yggdrasil: 待ち時間最適化ツリーベースLCMデコードのためのブリッジング動的推測と静的実行
Authors: Yue Guan, Changming Yu, Shihan Fang, Weiming Hu, Zaifeng Pan, Zheng Wang, Zihan Liu, Yangjie Zhou, Yufei Ding, Minyi Guo, Jingwen Leng,
Abstract要約: Yggdrasilは、コンテキスト対応のツリードラフトとコンパイラフレンドリな実行を通じて、レイテンシ最適化の投機的デコーディングを可能にするシステムである。 Yggdrasil は未修正の LLM をサポートし、複数のハードウェア構成で最先端のベースラインを最大3.98倍のスピードアップを実現している。
参考スコア（独自算出の注目度）: 49.16776388429616
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Speculative decoding improves LLM inference by generating and verifying multiple tokens in parallel, but existing systems suffer from suboptimal performance due to a mismatch between dynamic speculation and static runtime assumptions. We present Yggdrasil, a co-designed system that enables latency-optimal speculative decoding through context-aware tree drafting and compiler-friendly execution. Yggdrasil introduces an equal-growth tree structure for static graph compatibility, a latency-aware optimization objective for draft selection, and stage-based scheduling to reduce overhead. Yggdrasil supports unmodified LLMs and achieves up to $3.98\times$ speedup over state-of-the-art baselines across multiple hardware setups.
Abstract（参考訳）: 投機的復号化は、複数のトークンを並列に生成して検証することでLCM推論を改善するが、既存のシステムは動的投機と静的ランタイムの仮定のミスマッチにより、最適以下の性能に悩まされる。本稿では,コンテキスト対応ツリー起案とコンパイラフレンドリな実行による遅延最適投機復号を可能にする,共設計のシステムYggdrasilを提案する。 Yggdrasilは、静的グラフ互換性のための等成長ツリー構造、ドラフト選択のための遅延対応最適化目標、オーバーヘッドを削減するためのステージベースのスケジューリングを導入している。 Yggdrasilは未修正のLCMをサポートし、複数のハードウェアセットアップで最先端のベースラインを最大3.98\times$スピードアップする。

関連論文リスト

Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers [36.650880799066215]
非同期アプローチは計算の冗長性に悩まされるが、レイヤワイドパーティショニングではこの矛盾を解決できない。データ並列化では、負荷不均衡を中和しながら原子性を尊重するアルファバランス静的分割戦略を導入する。提案手法は,エンド・ツー・エンドでの1.57倍の高速化を実現し,ステップ遅延をベースラインに比べて5.8倍削減する。
論文参考訳（メタデータ） (2026-02-04T07:38:24Z)
Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文参考訳（メタデータ） (2026-02-02T09:14:51Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
ASPD: Unlocking Adaptive Serial-Parallel Decoding by Exploring Intrinsic Parallelism in LLMs [34.477777651648914]
大規模言語モデル(LLM)は、自動回帰デコードパラダイムのため、推論遅延の大きな問題を生じさせる。本稿では、並列化可能なデータの自動構築と効率的な並列化機構の2つの課題に対処する適応シリアル-パラレルデコーディング(ASPD)を提案する。我々のフレームワークは、効率的なLCM並列推論のための基盤となるベンチマークを設定し、AIによるカスタマーサービスボットや回答検索エンジンのようなレイテンシに敏感なアプリケーションへのデプロイの道を開く。
論文参考訳（メタデータ） (2025-08-12T12:35:55Z)
Optimizing Prompt Sequences using Monte Carlo Tree Search for LLM-Based Optimization [20.44067161623662]
大規模言語モデル(LLM)は、コード生成と構造化推論において顕著な能力を示した。本稿では,モンテカルロ木探索によって導かれる逐次決定過程として,選択を高速化するニューラルシンボリックフレームワークを提案する。本手法は,コード生成品質の向上を目的として,複数ステップのプロンプトシーケンスを探索・精査する。
論文参考訳（メタデータ） (2025-08-08T04:01:24Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。 Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文参考訳（メタデータ） (2025-02-22T14:13:37Z)
ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel Decoding [12.449023969197684]
ProPDは動的トークンツリーのプルーニングと生成に基づく効率的な並列デコードフレームワークである。 ProPD は既存の復号アルゴリズムを 1.1-3.2x で一貫的に上回っている。
論文参考訳（メタデータ） (2024-02-21T02:51:07Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。