論文の概要: Inference-Cost-Aware Dynamic Tree Construction for Efficient Inference in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.26577v1
- Date: Thu, 30 Oct 2025 15:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.872925
- Title: Inference-Cost-Aware Dynamic Tree Construction for Efficient Inference in Large Language Models
- Title(参考訳): 大規模言語モデルにおける効率的な推論のための推論コスト対応動的木構築
- Authors: Yinrong Hong, Zhiquan Tan, Kai Hu,
- Abstract要約: 大規模言語モデル(LLM)は、自動回帰設計と大規模化に起因する推論遅延の大きな問題に直面している。
我々は、推論コストを考慮したCASTと呼ばれる新しい動的ツリーデコーディング手法を導入する。
提案手法は,従来の復号法よりも最大5.2倍高速な高速化を実現した。
- 参考スコア(独自算出の注目度): 11.534519117332659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) face significant inference latency challenges stemming from their autoregressive design and large size. To address this, speculative decoding emerges as a solution, enabling the simultaneous generation and validation of multiple tokens. While recent approaches like EAGLE-2 and EAGLE-3 improve speculative decoding using dynamic tree structures, they often neglect the impact of crucial system variables such as GPU devices and batch sizes. Therefore, we introduce a new dynamic tree decoding approach called CAST that takes into account inference costs, including factors such as GPU configurations and batch sizes, to dynamically refine the tree structure. Through comprehensive experimentation across six diverse tasks and utilizing six distinct LLMs, our methodology demonstrates remarkable results, achieving speeds up to 5.2 times faster than conventional decoding methods. Moreover, it generally outperforms existing state-of-the-art techniques from 5% to 20%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動回帰設計と大規模化に起因する推論遅延の大きな問題に直面している。
これを解決するために、投機的復号化はソリューションとして現れ、複数のトークンの同時生成と検証を可能にする。
EAGLE-2やEAGLE-3のような最近のアプローチは、動的ツリー構造を使った投機的デコーディングを改善するが、GPUデバイスやバッチサイズといった重要なシステム変数の影響を無視することが多い。
そこで我々は,GPU構成やバッチサイズなどの推論コストを考慮したCASTと呼ばれる動的ツリーデコーディング手法を導入し,ツリー構造を動的に洗練する。
その結果,従来の復号法に比べて最大5.2倍の高速化を実現した。
さらに、既存の最先端のテクニックを5%から20%に上回ります。
関連論文リスト
- EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture [87.55157183411507]
マルチモーダル理解・生成・編集のための効率よく統一されたアーキテクチャEMMAを提案する。
EMMAは主に1)32倍圧縮率の効率的なオートエンコーダから成り、生成に必要なトークンの数を大幅に削減する。
2) 視覚的理解と生成トークン間のトークンワイドな結合ではなく,チャネルワイドな結合により,統一アーキテクチャにおける視覚的トークンの低減が図られる。
論文 参考訳(メタデータ) (2025-12-04T14:01:53Z) - Scaling Linear Attention with Sparse State Expansion [62.749291436866606]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。
より効率的な文脈圧縮を実現するための2つの重要な革新を提案する。
まず、情報分類として状態更新を概念化し、線形注意のための行スパース更新定式化を導入する。
次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文 参考訳(メタデータ) (2025-07-22T13:27:31Z) - TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:55:04Z) - Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。
推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。
Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文 参考訳(メタデータ) (2025-02-22T14:13:37Z) - Acceleration Multiple Heads Decoding for LLM via Dynamic Tree Attention [2.5790021852425093]
複数のヘッドデコーディングは、次のいくつかのトークンを同時に予測することで、Large Language Models (LLM) の推論を加速する。
本稿では,動的木構造の構築と候補生成のためのシンプルで低複雑性な手法を提案する。
論文 参考訳(メタデータ) (2025-02-09T16:28:21Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - What Makes Large Language Models Reason in (Multi-Turn) Code Generation? [28.614888506962988]
思考の連鎖は、大規模言語モデル(LLM)の出力を改善するための一般的な手段として確立されている。
本稿では,複数回にまたがる自動再プロンプトに焦点をあてて,幅広いプロンプト戦略の効果について検討する。
本研究は, 小型かつ大規模なサンプリング予算を持つ全モデルにおいて, 継続的に性能を向上させる戦略を明らかにする。
論文 参考訳(メタデータ) (2024-10-10T16:53:10Z) - ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel
Decoding [12.449023969197684]
ProPDは動的トークンツリーのプルーニングと生成に基づく効率的な並列デコードフレームワークである。
ProPD は既存の復号アルゴリズムを 1.1-3.2x で一貫的に上回っている。
論文 参考訳(メタデータ) (2024-02-21T02:51:07Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。