論文の概要: Acceleration Multiple Heads Decoding for LLM via Dynamic Tree Attention
- arxiv url: http://arxiv.org/abs/2502.05947v1
- Date: Sun, 09 Feb 2025 16:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:16.153871
- Title: Acceleration Multiple Heads Decoding for LLM via Dynamic Tree Attention
- Title(参考訳): 動的ツリーアテンションによるLCMの高速化多重ヘッドデコーディング
- Authors: Zhendong Zhang,
- Abstract要約: 複数のヘッドデコーディングは、次のいくつかのトークンを同時に予測することで、Large Language Models (LLM) の推論を加速する。
本稿では,動的木構造の構築と候補生成のためのシンプルで低複雑性な手法を提案する。
- 参考スコア(独自算出の注目度): 2.5790021852425093
- License:
- Abstract: Multiple heads decoding accelerates the inference of Large Language Models (LLMs) by predicting next several tokens simultaneously. It generates and verifies multiple candidate sequences in parallel via tree attention with a fixed structure. In this paper, we replace the fixed tree attention with dynamic tree attention on multiple head decoding, specifically in the context of MEDUSA. We propose a simple and low complexity strategy to generate candidates and construct the dynamic tree structure. Preliminary experiments show that the proposed method improves the decoding efficiency of multiple head decoding for LLMs while maintaining the generation quality. This result demonstrates the potential for improvement of multiple head decoding in candidate generation.
- Abstract(参考訳): 複数のヘッドデコーディングは、次のいくつかのトークンを同時に予測することで、Large Language Models (LLM) の推論を加速する。
ツリーアテンションによって複数の候補シーケンスを並列に生成し、固定された構造で検証する。
本稿では,固定木注意を複数頭部復号化の動的木注意に置き換える。
本稿では,動的木構造の構築と候補生成のためのシンプルで低複雑性な手法を提案する。
予備実験により, 提案手法は, 生成品質を維持しつつ, 複数ヘッド復号の復号効率を向上することを示した。
この結果は、候補生成における多重ヘッドデコードの改善の可能性を示している。
関連論文リスト
- CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - ProPD: Dynamic Token Tree Pruning and Generation for LLM Parallel
Decoding [12.449023969197684]
ProPDは動的トークンツリーのプルーニングと生成に基づく効率的な並列デコードフレームワークである。
ProPD は既存の復号アルゴリズムを 1.1-3.2x で一貫的に上回っている。
論文 参考訳(メタデータ) (2024-02-21T02:51:07Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Tree Prompting: Efficient Task Adaptation without Fine-Tuning [112.71020326388029]
Tree Promptingはプロンプトの決定ツリーを構築し、複数のLMコールをリンクしてタスクを解決する。
分類データセットの実験により、Tree Promptingは競合するメソッドよりも精度が向上し、微調整と競合することが示された。
論文 参考訳(メタデータ) (2023-10-21T15:18:22Z) - Structure-Unified M-Tree Coding Solver for MathWord Problem [57.825176412485504]
従来,数式表現の2次木構造を考慮に入れたモデルでは,性能が向上した。
本稿では、出力構造を統一するために、任意のM枝(M-tree)を持つ木を適用した構造統一M-Tree符号化(S-UMCr)を提案する。
広く使われているMAWPSとMath23Kデータセットの実験結果は、SUMC-rが複数の最先端モデルを上回るだけでなく、低リソース条件下でもはるかに優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-10-22T12:20:36Z) - Recursive Tree Grammar Autoencoders [3.791857415239352]
本稿では,木をボトムアップ文法で符号化し,木を木文法で復号する,新しいオートエンコーダ手法を提案する。
提案手法は, 4つのベンチマークデータセットにおいて, 自動符号化誤差, トレーニング時間, 最適化スコアを改善することを実験的に示す。
論文 参考訳(メタデータ) (2020-12-03T17:37:25Z) - Transformer-Based Neural Text Generation with Syntactic Guidance [0.0]
テキスト生成の統語指導として(部分的)選挙区構文解析木を用いた場合の問題点について検討する。
提案手法は,まず部分的テンプレート構文解析木を入力元テキストに適した完全分岐構文解析木に拡張する。
本手法は意味論的・統語論的にSOTAモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-05T01:33:58Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - Tree Echo State Autoencoders with Grammars [3.7280152311394827]
木の非ベクトル的かつ離散的な性質は、木形式の出力を持つ関数を構築するのを難しくする。
既存のオートエンコーディングアプローチは、ツリードメインの特定の文法構造を考慮に入れない。
本研究では,木文法でガイドされる木エコー状態オートエンコーダ(TES-AE)を提案する。
論文 参考訳(メタデータ) (2020-04-19T18:04:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。