論文の概要: Efficient Beam Search for Large Language Models Using Trie-Based Decoding
- arxiv url: http://arxiv.org/abs/2502.00085v1
- Date: Fri, 31 Jan 2025 16:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:39.755577
- Title: Efficient Beam Search for Large Language Models Using Trie-Based Decoding
- Title(参考訳): トライベースデコードを用いた大規模言語モデルの効率的なビーム探索
- Authors: Brian J Chan, Jui-Hung Cheng, Mao Xun Huang, Chao-Ting Chen, Hen-Hsen Huang,
- Abstract要約: 本稿では,バッチベースのビームサーチのメモリ非効率性に対処する並列デコーディング手法を提案する。
同じプレフィックスを共有するすべてのビーム間で単一のキャッシュを共有することで、提案手法はメモリ消費を劇的に削減するだけでなく、すべてのブランチ間で並列デコードを可能にする。
プレフィックスツリーのこの革新的な利用は、ビーム探索の効率的な代替手段を提供し、推論速度を保ちながら大きなメモリ節約を実現し、特にメモリ制約のある環境や大規模なモデル展開に適している。
- 参考スコア(独自算出の注目度): 10.302821791274129
- License:
- Abstract: In Transformer-based sequence-to-sequence generation, beam search has proven effective in enhancing the quality of generated sequences compared to greedy decoding. Conventional beam search methods typically adopt either a sequential or batch-based approach. The sequential approach, while memory-efficient, requires multiple decoding passes to construct a complete search tree, leading to significantly slower inference. On the other hand, the batch-based approach enables parallel computation across beams, but at the expense of high memory consumption due to the need to maintain separate key-value (KV) caches for each beam. In this study, we introduce a novel trie (prefix-tree)-based parallel decoding method that addresses the memory inefficiency of batch-based beam search. By sharing a single KV cache among all beams that share the same prefix, the proposed method not only reduces memory consumption dramatically but also enables parallel decoding across all branches. This innovative use of a prefix tree offers an efficient alternative for beam search, achieving significant memory savings while preserving inference speed, making it particularly well-suited for memory-constrained environments or large-scale model deployments.
- Abstract(参考訳): トランスフォーマーを用いたシークエンス・ツー・シーケンス生成において、ビームサーチは、グリーディ・デコーディングと比較して生成シーケンスの品質向上に有効であることが証明されている。
従来のビームサーチ手法は、典型的にはシーケンシャルまたはバッチベースのアプローチを採用する。
シーケンシャルアプローチはメモリ効率は高いが、完全な探索木を構築するためには複数の復号パスを必要とするため、推論は大幅に遅くなる。
一方、バッチベースのアプローチは、ビーム間の並列計算を可能にするが、各ビームごとにキー値(KV)キャッシュを分離しておく必要があるため、高いメモリ消費を犠牲にしている。
本研究では,バッチベースのビームサーチのメモリ非効率性に対処する,新しいトリエ(prefix-tree)ベースの並列デコーディング手法を提案する。
同じプレフィックスを共有するすべてのビーム間で単一のKVキャッシュを共有することで、提案手法はメモリ消費を劇的に削減するだけでなく、すべてのブランチ間で並列デコードを可能にする。
プレフィックスツリーのこの革新的な利用は、ビーム探索の効率的な代替手段を提供し、推論速度を保ちながら大きなメモリ節約を実現し、特にメモリ制約のある環境や大規模なモデル展開に適している。
関連論文リスト
- PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference [35.730941605490194]
大規模言語モデル(LLM)は多くの実世界のタスクで優れたパフォーマンスを示している。
投機的復号化は有望な解決策として現れ、より小さな補助モデルを利用して将来のトークンをドラフトしている。
本稿では,ビームサンプリングによる投機的復号化の新たな統合について検討する。
論文 参考訳(メタデータ) (2024-09-25T02:20:42Z) - An Efficient Procedure for Computing Bayesian Network Structure Learning [0.9208007322096532]
本稿では,段階的にレベル付けされたスコアリング手法に基づいて,グローバルに最適なベイズネットワーク構造探索アルゴリズムを提案する。
実験結果から,本手法はメモリのみを使用する場合,ピークメモリ使用量を削減するだけでなく,計算効率も向上することが示された。
論文 参考訳(メタデータ) (2024-07-24T07:59:18Z) - HashReID: Dynamic Network with Binary Codes for Efficient Person
Re-identification [3.3372444460738357]
人身認証(ReID)のような生体認証アプリケーションは、しばしばエネルギー制約のあるデバイスにデプロイされる。
近年のReID手法では高い検索性能が優先されているが,計算コストが大きく,探索時間も高いことが多い。
本稿では,複数の出口ブロックを持つ入力適応型ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-23T04:01:54Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。
本研究は,リコールにおける相異なるサロゲート損失を提案する。
提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-25T11:09:11Z) - A Genetic Algorithm for Obtaining Memory Constrained Near-Perfect
Hashing [0.0]
本稿では,検索時の比較回数の最小化と,総コレクションサイズを最小化することに焦点を当てたハッシュテーブルに基づくアプローチを提案する。
論文は、ほぼ完全なハッシュはバイナリ検索よりも高速であるが、完全なハッシュよりも少ないメモリを使用することを示した。
論文 参考訳(メタデータ) (2020-07-16T12:57:15Z) - Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。
ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文 参考訳(メタデータ) (2020-07-08T05:56:01Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。