論文の概要: Efficient Beam Search for Large Language Models Using Trie-Based Decoding
- arxiv url: http://arxiv.org/abs/2502.00085v2
- Date: Mon, 22 Sep 2025 12:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:44.712156
- Title: Efficient Beam Search for Large Language Models Using Trie-Based Decoding
- Title(参考訳): トライベースデコードを用いた大規模言語モデルの効率的なビーム探索
- Authors: Brian J Chan, MaoXun Huang, Jui-Hung Cheng, Chao-Ting Chen, Hen-Hsen Huang,
- Abstract要約: 本研究は,バッチベースのビームサーチのメモリ非効率性に対処する,トリエ(ツリー)ベースの並列デコーディング手法を提案する。
ビーム間で1つのKVキャッシュを共通プレフィックスで共有することにより,メモリ使用量を劇的に削減し,効率的な復号化を実現する。
- 参考スコア(独自算出の注目度): 13.496312069446963
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This work presents a novel trie (prefix-tree)-based parallel decoding method that addresses the memory inefficiency of batch-based beam search. By sharing a single KV cache across beams with common prefixes, our approach dramatically reduces memory usage and enables efficient decoding. We evaluated our method across three attention architectures, Multi-Head Attention (Phi-3.5-mini-instruct), Grouped Query Attention (Llama-3.1-8B-Instruct), and Sliding Window Attention (Mistral-Small-24B-Instruct-2501), using CNN/DailyMail for abstractive summarization and HumanEval for code generation. Our experiments demonstrate substantial memory savings (4--8$\times$) and up to 2.4$\times$ faster decoding, without compromising generation quality. These results highlight our method's suitability for memory-constrained environments and large-scale deployments.
- Abstract(参考訳): 本研究は、バッチベースのビームサーチのメモリ非効率性に対処する、トリエ(prefix-tree)ベースの並列デコーディング手法を提案する。
ビーム間で1つのKVキャッシュを共通プレフィックスで共有することにより,メモリ使用量を劇的に削減し,効率的な復号化を実現する。
CNN/DailyMailによる抽象的な要約とコード生成のためのHumanEvalを用いた,マルチヘッドアテンション(Phi-3.5-mini-instruct),グループクエリアテンション(Llama-3.1-8B-instruct),スライディングウィンドウアテンション(Mistral-Small-24B-instruct-2501),3つのアテンションアーキテクチャを対象とした評価を行った。
我々の実験は、生成品質を損なうことなく、大幅なメモリ節約(4--8$\times$)と最大2.4$\times$高速デコーディングを実証した。
これらの結果から,メモリ制約のある環境や大規模デプロイメントに適した方法が示された。
関連論文リスト
- PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference [35.730941605490194]
大規模言語モデル(LLM)は多くの実世界のタスクで優れたパフォーマンスを示している。
投機的復号化は有望な解決策として現れ、より小さな補助モデルを利用して将来のトークンをドラフトしている。
本稿では,ビームサンプリングによる投機的復号化の新たな統合について検討する。
論文 参考訳(メタデータ) (2024-09-25T02:20:42Z) - An Efficient Procedure for Computing Bayesian Network Structure Learning [0.9208007322096532]
本稿では,段階的にレベル付けされたスコアリング手法に基づいて,グローバルに最適なベイズネットワーク構造探索アルゴリズムを提案する。
実験結果から,本手法はメモリのみを使用する場合,ピークメモリ使用量を削減するだけでなく,計算効率も向上することが示された。
論文 参考訳(メタデータ) (2024-07-24T07:59:18Z) - HashReID: Dynamic Network with Binary Codes for Efficient Person
Re-identification [3.3372444460738357]
人身認証(ReID)のような生体認証アプリケーションは、しばしばエネルギー制約のあるデバイスにデプロイされる。
近年のReID手法では高い検索性能が優先されているが,計算コストが大きく,探索時間も高いことが多い。
本稿では,複数の出口ブロックを持つ入力適応型ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-23T04:01:54Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。
本研究は,リコールにおける相異なるサロゲート損失を提案する。
提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-25T11:09:11Z) - A Genetic Algorithm for Obtaining Memory Constrained Near-Perfect
Hashing [0.0]
本稿では,検索時の比較回数の最小化と,総コレクションサイズを最小化することに焦点を当てたハッシュテーブルに基づくアプローチを提案する。
論文は、ほぼ完全なハッシュはバイナリ検索よりも高速であるが、完全なハッシュよりも少ないメモリを使用することを示した。
論文 参考訳(メタデータ) (2020-07-16T12:57:15Z) - Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。
ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文 参考訳(メタデータ) (2020-07-08T05:56:01Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。