論文の概要: Inference-Cost-Aware Dynamic Tree Construction for Efficient Inference in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.26577v1
- Date: Thu, 30 Oct 2025 15:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.872925
- Title: Inference-Cost-Aware Dynamic Tree Construction for Efficient Inference in Large Language Models
- Title(参考訳): 大規模言語モデルにおける効率的な推論のための推論コスト対応動的木構築
- Authors: Yinrong Hong, Zhiquan Tan, Kai Hu,
- Abstract要約: 大規模言語モデル(LLM)は、自動回帰設計と大規模化に起因する推論遅延の大きな問題に直面している。
我々は、推論コストを考慮したCASTと呼ばれる新しい動的ツリーデコーディング手法を導入する。
提案手法は,従来の復号法よりも最大5.2倍高速な高速化を実現した。
- 参考スコア(独自算出の注目度): 11.534519117332659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) face significant inference latency challenges stemming from their autoregressive design and large size. To address this, speculative decoding emerges as a solution, enabling the simultaneous generation and validation of multiple tokens. While recent approaches like EAGLE-2 and EAGLE-3 improve speculative decoding using dynamic tree structures, they often neglect the impact of crucial system variables such as GPU devices and batch sizes. Therefore, we introduce a new dynamic tree decoding approach called CAST that takes into account inference costs, including factors such as GPU configurations and batch sizes, to dynamically refine the tree structure. Through comprehensive experimentation across six diverse tasks and utilizing six distinct LLMs, our methodology demonstrates remarkable results, achieving speeds up to 5.2 times faster than conventional decoding methods. Moreover, it generally outperforms existing state-of-the-art techniques from 5% to 20%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動回帰設計と大規模化に起因する推論遅延の大きな問題に直面している。
これを解決するために、投機的復号化はソリューションとして現れ、複数のトークンの同時生成と検証を可能にする。
EAGLE-2やEAGLE-3のような最近のアプローチは、動的ツリー構造を使った投機的デコーディングを改善するが、GPUデバイスやバッチサイズといった重要なシステム変数の影響を無視することが多い。
そこで我々は,GPU構成やバッチサイズなどの推論コストを考慮したCASTと呼ばれる動的ツリーデコーディング手法を導入し,ツリー構造を動的に洗練する。
その結果,従来の復号法に比べて最大5.2倍の高速化を実現した。
さらに、既存の最先端のテクニックを5%から20%に上回ります。
関連論文リスト
- Scaling Linear Attention with Sparse State Expansion [62.749291436866606]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。
より効率的な文脈圧縮を実現するための2つの重要な革新を提案する。
まず、情報分類として状態更新を概念化し、線形注意のための行スパース更新定式化を導入する。
次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文 参考訳(メタデータ) (2025-07-22T13:27:31Z) - Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:55:04Z) - Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。
推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。
Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文 参考訳(メタデータ) (2025-02-22T14:13:37Z) - Acceleration Multiple Heads Decoding for LLM via Dynamic Tree Attention [2.5790021852425093]
複数のヘッドデコーディングは、次のいくつかのトークンを同時に予測することで、Large Language Models (LLM) の推論を加速する。
本稿では,動的木構造の構築と候補生成のためのシンプルで低複雑性な手法を提案する。
論文 参考訳(メタデータ) (2025-02-09T16:28:21Z) - ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel
Decoding [12.449023969197684]
ProPDは動的トークンツリーのプルーニングと生成に基づく効率的な並列デコードフレームワークである。
ProPD は既存の復号アルゴリズムを 1.1-3.2x で一貫的に上回っている。
論文 参考訳(メタデータ) (2024-02-21T02:51:07Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。