Fugu-MT 論文翻訳(概要): Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

論文の概要: Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

arxiv url: http://arxiv.org/abs/2307.15337v2
Date: Sun, 8 Oct 2023 03:59:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 05:33:35.219152
Title: Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding
Title（参考訳）: skeleton-of-thought: 大きな言語モデルは並列デコードができる
Authors: Xuefei Ning, Zinan Lin, Zixuan Zhou, Zifu Wang, Huazhong Yang, Yu Wang
Abstract要約: 本研究の目的は,大規模言語モデル(LLM)のエンドツーエンド生成レイテンシの削減である。人間の思考と記述のプロセスに動機づけられた私たちは、Skeleton-of-Thought (SoT)を提案する。 SoT はまず LLM をガイドして回答のスケルトンを生成し、次に並列API呼び出しやバッチデコードを実行して、各スケルトンポイントの内容を並列に完了させる。
参考スコア（独自算出の注目度）: 23.65270067167911
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted by almost all state-of-the-art LLMs. In this work, motivated by the thinking and writing process of humans, we propose Skeleton-of-Thought (SoT), which first guides LLMs to generate the skeleton of the answer, and then conducts parallel API calls or batched decoding to complete the contents of each skeleton point in parallel. Not only does SoT provide considerable speed-ups across 12 LLMs, but it can also potentially improve the answer quality on several question categories. SoT is an initial attempt at data-centric optimization for inference efficiency, and further underscores the potential of pushing LLMs to think more like a human for answer quality.
Abstract（参考訳）: 本研究の目的は,大規模言語モデル(LLM)のエンドツーエンド生成遅延を低減することである。次世代の遅延の大きな原因の1つは、ほとんどの最先端のLCMで採用されているシーケンシャルデコードアプローチである。本研究は,人間の思考と記述のプロセスに動機付けられ,まずLSMを誘導して回答の骨格を生成し,次いで並列API呼び出しやバッチデコードを行い,各スケルトン点の内容を並列に補完するSkeleton-of-Thought (SoT)を提案する。 SoTは12 LLMでかなりのスピードアップを提供するだけでなく、いくつかの質問カテゴリの回答品質を改善することもできる。 SoTは、推論効率をデータ中心で最適化するための最初の試みであり、LLMを人間らしくして答えの品質を追求する可能性をさらに強調している。

関連論文リスト

Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文参考訳（メタデータ） (2026-02-02T09:14:51Z)
The Self-Improvement Paradox: Can Language Models Bootstrap Reasoning Capabilities without External Scaffolding? [39.602857110637736]
本稿では,高品質な質問応答データを完全自律的に生成するフレームワークであるCrescentを提案する。数学推論のための外部監視信号がゼロであることから、クレセントは真の自己改善の可能性に光を当てている。
論文参考訳（メタデータ） (2025-02-19T05:37:08Z)
SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。 LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-17T18:52:29Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
LinkGPT: Teaching Large Language Models To Predict Missing Links [23.57145845001286]
大規模言語モデル(LLM)は、様々な言語やビジョンタスクにおいて有望な結果を示している。近年、グラフベースのタスク、特にテキスト分散グラフ(TAG)にLLMを適用することへの関心が高まっている。
論文参考訳（メタデータ） (2024-06-07T04:54:36Z)
Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models [9.121458241884444]
投機的実行は、textitdraft-then-verifyスタイルでLLMデコードに導入される。コストのかかる推論を並列化することにより、復号速度を大幅に向上させることができる。 LLMにおける投機的実行の文献をレビューし、統一する最初の調査論文を提示する。
論文参考訳（メタデータ） (2024-04-23T10:25:45Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
LLMCad: Fast and Scalable On-device Large Language Model Inference [11.103824752113148]
テキスト生成や質問応答といった生成タスクは、モバイルアプリケーションの領域において重要な位置を占める。現在、これらの生成タスクの実行は、大規模言語モデル(LLM)に大きく依存している。本稿では,効率的な生成自然言語処理(NLP)タスク用に設計されたオンデバイス推論エンジンであるLLMCadを紹介する。
論文参考訳（メタデータ） (2023-09-08T10:44:19Z)
LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文参考訳（メタデータ） (2023-08-30T16:47:51Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。