論文の概要: Adaptive Skeleton Graph Decoding
- arxiv url: http://arxiv.org/abs/2402.12280v1
- Date: Mon, 19 Feb 2024 16:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:36:17.203629
- Title: Adaptive Skeleton Graph Decoding
- Title(参考訳): 適応スケルトングラフ復号法
- Authors: Shuowei Jin, Yongji Wu, Haizhong Zheng, Qingzhao Zhang, Matthew Lentz,
Z. Morley Mao, Atul Prakash, Feng Qian, Danyang Zhuo
- Abstract要約: Skeleton Graph Decoding (SGD) はサブプロブレム間の依存関係を公開し、依存サブプロブレム間の情報転送をサポートする。
通常の自己回帰生成やSoTと比較して、SGDは1.69倍のスピードアップを実現し、品質を最大51%向上させる。
- 参考スコア(独自算出の注目度): 18.515146557054116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have seen significant adoption for natural
language tasks, owing their success to massive numbers of model parameters
(e.g., 70B+); however, LLM inference incurs significant computation and memory
costs. Recent approaches propose parallel decoding strategies, such as
Skeleton-of-Thought (SoT), to improve performance by breaking prompts down into
sub-problems that can be decoded in parallel; however, they often suffer from
reduced response quality. Our key insight is that we can request additional
information, specifically dependencies and difficulty, when generating the
sub-problems to improve both response quality and performance. In this paper,
we propose Skeleton Graph Decoding (SGD), which uses dependencies exposed
between sub-problems to support information forwarding between dependent
sub-problems for improved quality while exposing parallelization opportunities
for decoding independent sub-problems. Additionally, we leverage difficulty
estimates for each sub-problem to select an appropriately-sized model,
improving performance without significantly reducing quality. Compared to
standard autoregressive generation and SoT, SGD achieves a 1.69x speedup while
improving quality by up to 51%.
- Abstract(参考訳): 大規模言語モデル(llm)は、大量のモデルパラメータ(例えば70b+)の成功によって、自然言語タスクにかなりの採用が見られたが、llm推論は、かなりの計算量とメモリコストを伴っている。
最近のアプローチでは、stoel-of-thought(sot)のような並列デコード戦略を提案し、プロンプトを並列にデコードできるサブプロンプトに分割することでパフォーマンスを向上させるが、応答品質の低下に苦しむことが多い。
私たちの重要な洞察は、サブプロブレムを生成して応答品質とパフォーマンスの両方を改善する際に、追加の情報、特に依存関係と困難を要求できるということです。
本稿では,サブプロブレム間の依存関係を公開して,依存サブプロブレム間の情報転送を支援するSkeleton Graph Decoding (SGD)を提案する。
さらに,各サブプロブレムの難易度推定を活用して,適切なサイズモデルを選択し,品質を著しく低下させることなく性能を向上させる。
sgdは標準のオートレグレッシブ・ジェネレーションとsotと比較して1.59倍のスピードアップを達成し、品質は最大51%向上した。
関連論文リスト
- Enhancing the Reasoning Capabilities of Small Language Models via Solution Guidance Fine-Tuning [14.857842644246634]
本稿では,SG(Solution Guidance)およびSGFT(Solution-Guidance Fine-Tuning)について紹介する。
SGは、特定の計算ではなく、意味的および論理的なレベルでの問題理解と分解に焦点を当てている。
SGFTは、SLMを微調整して正確な問題解決ガイダンスを生成することができ、任意のSLMにプロンプトとして柔軟に供給することができる。
論文 参考訳(メタデータ) (2024-12-13T06:45:26Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Compressing Large Language Models with Automated Sub-Network Search [41.452512557226335]
我々は、下流タスク性能を改善しつつ、モデルサイズの削減を図るため、大規模言語モデルに対するモデル圧縮を検討する。
我々はこれを、構造的コンポーネントを自動生成するニューラルネットワーク探索問題と表現する。
本手法は,11種類のダウンストリームタスクに対して平均9.85%の改善を実現し,デバイス上でのレイテンシを最大22%改善する。
論文 参考訳(メタデータ) (2024-10-09T02:14:39Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。