論文の概要: Path-Consistency: Prefix Enhancement for Efficient Inference in LLM
- arxiv url: http://arxiv.org/abs/2409.01281v1
- Date: Sun, 25 Aug 2024 01:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-08 14:53:30.146218
- Title: Path-Consistency: Prefix Enhancement for Efficient Inference in LLM
- Title(参考訳): 経路整合性: LLMにおける効率的な推論のための事前修正
- Authors: Jiace Zhu, Yingtao Shen, Jie Zhao, An Zou,
- Abstract要約: textitpath-consistencyは、自己整合性においてランダムまたはあまり有用なサンプリングからエラーと冗長の両方を緩和する。
textitpath-consistencyは7.8%$から40.5%$までの推論遅延を著しく加速する。
- 参考スコア(独自算出の注目度): 3.309813585671485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enhance the reasoning capabilities of large language models (LLMs), self-consistency has gained significant popularity by combining multiple sampling with majority voting. However, the state-of-the-art self-consistency approaches consume substantial computational resources and lead to significant additional time costs due to the multiple sampling. This prevents its full potential from being realized in scenarios where computational resources are critical. To improve the inference efficiency, this paper introduces \textit{path-consistency}, a method that leverages the confidence of answers generated in earlier branches to identify the prefix of the most promising path. By dynamically guiding the generation of subsequent branches based on this prefix, the \textit{path-consistency} mitigates both the errors and redundancies from random or less useful sampling in self-consistency. As a result, it can significantly accelerate the inference process by reducing the number of tokens generated. Our extensive empirical evaluation shows that the \textit{path-consistency} achieves significant acceleration in inference latency ranging from $7.8\%$ to $40.5\%$, while maintaining or even improving task accuracy across different datasets, including mathematical reasoning, common sense reasoning, symbolic reasoning, and code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力を高めるために,複数サンプリングと多数投票を組み合わせることで,自己整合性に大きな人気を得た。
しかし、最先端の自己整合性アプローチは、かなりの計算資源を消費し、多重サンプリングによる大幅な追加時間コストをもたらす。
これにより、計算資源が重要となるシナリオにおいて、その潜在能力が実現されない。
推論効率を向上させるために,従来のブランチで生成した回答の信頼性を活用し,最も有望なパスのプレフィックスを特定する手法である「textit{path-consistency」を導入する。
このプレフィックスに基づいて後続のブランチの生成を動的に導くことで、‘textit{path-consistency’は、ランダムまたはあまり役に立たない自己一貫性のサンプリングからエラーと冗長性の両方を緩和する。
結果として、生成されたトークンの数を減らすことで、推論プロセスを大幅に高速化することができる。
我々の広範な経験的評価によると、‘textit{path-consistency’ は 7.8 %$ から 40.5 %$ までの推論遅延の大幅な加速を実現し、数学的推論、常識推論、記号推論、コード生成など、さまざまなデータセットでタスクの精度を維持または改善している。
関連論文リスト
- Nash CoT: Multi-Path Inference with Preference Equilibrium [40.50811042423615]
大型言語モデル(LLM)の推論能力を高めるための強力な技術として、チェーン・オブ・シント(CoT)プロンプトが登場した。
我々は、シンボリック言語デコーディングを優先コンセンサスゲームとして概念化し、各ローカルパス内にバイプレイヤゲームシステムを構築し、ナッシュチェーン・オブ・ソート(ナッシュCoT)を紹介した。
我々は,アラビア推論,コモンセンス質問応答,推論など,さまざまな推論タスクにおいて,推論パスを減らしながら,自己整合性と比較して同等あるいは改善された性能を実現する。
論文 参考訳(メタデータ) (2024-06-18T07:46:13Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy [46.81745860690336]
大規模言語モデル(LLM)は、質問応答、翻訳、テキスト要約、対話システムなど、様々なタスクで大きく進歩している。
本稿では,推論プロセスの高速化のための汎用フレームワークを提案する。
我々は、推論加速フレームワークの適用によって達成された顕著な改善を実証するために、広範囲な実験を行う。
論文 参考訳(メタデータ) (2023-12-20T02:55:15Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - SparseCoder: Advancing Source Code Analysis with Sparse Attention and
Learned Token Pruning [9.770054863791808]
トランスフォーマーベースのアプローチは、優れたパフォーマンスを達成するが、自己注意機構のため、長いコードシーケンスに苦労する。
本稿では、スパースアテンションと学習トークンプルーニングを取り入れた革新的なアプローチであるSparseCoderを紹介する。
脆弱性検出のための大規模なデータセット上で実施された大規模な実験は、SparseCoderの有効性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-11T01:11:30Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。