論文の概要: Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding
- arxiv url: http://arxiv.org/abs/2307.15337v2
- Date: Sun, 8 Oct 2023 03:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:33:35.219152
- Title: Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding
- Title(参考訳): skeleton-of-thought: 大きな言語モデルは並列デコードができる
- Authors: Xuefei Ning, Zinan Lin, Zixuan Zhou, Zifu Wang, Huazhong Yang, Yu Wang
- Abstract要約: 本研究の目的は,大規模言語モデル(LLM)のエンドツーエンド生成レイテンシの削減である。
人間の思考と記述のプロセスに動機づけられた私たちは、Skeleton-of-Thought (SoT)を提案する。
SoT はまず LLM をガイドして回答のスケルトンを生成し、次に並列API呼び出しやバッチデコードを実行して、各スケルトンポイントの内容を並列に完了させる。
- 参考スコア(独自算出の注目度): 23.65270067167911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims at decreasing the end-to-end generation latency of large
language models (LLMs). One of the major causes of the high generation latency
is the sequential decoding approach adopted by almost all state-of-the-art
LLMs. In this work, motivated by the thinking and writing process of humans, we
propose Skeleton-of-Thought (SoT), which first guides LLMs to generate the
skeleton of the answer, and then conducts parallel API calls or batched
decoding to complete the contents of each skeleton point in parallel. Not only
does SoT provide considerable speed-ups across 12 LLMs, but it can also
potentially improve the answer quality on several question categories. SoT is
an initial attempt at data-centric optimization for inference efficiency, and
further underscores the potential of pushing LLMs to think more like a human
for answer quality.
- Abstract(参考訳): 本研究の目的は,大規模言語モデル(LLM)のエンドツーエンド生成遅延を低減することである。
次世代の遅延の大きな原因の1つは、ほとんどの最先端のLCMで採用されているシーケンシャルデコードアプローチである。
本研究は,人間の思考と記述のプロセスに動機付けられ,まずLSMを誘導して回答の骨格を生成し,次いで並列API呼び出しやバッチデコードを行い,各スケルトン点の内容を並列に補完するSkeleton-of-Thought (SoT)を提案する。
SoTは12 LLMでかなりのスピードアップを提供するだけでなく、いくつかの質問カテゴリの回答品質を改善することもできる。
SoTは、推論効率をデータ中心で最適化するための最初の試みであり、LLMを人間らしくして答えの品質を追求する可能性をさらに強調している。
関連論文リスト
- Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models [9.121458241884444]
投機的実行は、textitdraft-then-verifyスタイルでLLMデコードに導入される。
コストのかかる推論を並列化することにより、復号速度を大幅に向上させることができる。
LLMにおける投機的実行の文献をレビューし、統一する最初の調査論文を提示する。
論文 参考訳(メタデータ) (2024-04-23T10:25:45Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound
Inference Systems [80.54551166283805]
本研究では,Large Language Model (LLM) の呼び出し回数が1層投票システムの性能に与える影響について検討する。
この非単調性は,タスク内の問合せの難しさの多様性に起因すると考えられる。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - Not all Layers of LLMs are Necessary during Inference [68.88671495401483]
LLM(Large Language Models)の理想的な推論段階は、その能力を維持しながら少ない計算資源を利用できる。
本稿では,AdaInfer という単純なアルゴリズムを用いて,入力インスタンスを適応的に推定する手法を提案する。
実験によると、AdaInferは平均14.8%の計算リソースを節約し、最大50%の感情タスクを削減し、同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [19.499980585836834]
大規模言語モデル(LLM)は,タスク解決プロセスに関するイラストが提供されないと動作が悪くなる。
そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T08:26:33Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。
現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。
本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文 参考訳(メタデータ) (2023-09-08T10:44:19Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models [88.19189563759942]
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。