論文の概要: Adaptive Skeleton Graph Decoding
- arxiv url: http://arxiv.org/abs/2402.12280v1
- Date: Mon, 19 Feb 2024 16:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:36:17.203629
- Title: Adaptive Skeleton Graph Decoding
- Title(参考訳): 適応スケルトングラフ復号法
- Authors: Shuowei Jin, Yongji Wu, Haizhong Zheng, Qingzhao Zhang, Matthew Lentz,
Z. Morley Mao, Atul Prakash, Feng Qian, Danyang Zhuo
- Abstract要約: Skeleton Graph Decoding (SGD) はサブプロブレム間の依存関係を公開し、依存サブプロブレム間の情報転送をサポートする。
通常の自己回帰生成やSoTと比較して、SGDは1.69倍のスピードアップを実現し、品質を最大51%向上させる。
- 参考スコア(独自算出の注目度): 18.515146557054116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have seen significant adoption for natural
language tasks, owing their success to massive numbers of model parameters
(e.g., 70B+); however, LLM inference incurs significant computation and memory
costs. Recent approaches propose parallel decoding strategies, such as
Skeleton-of-Thought (SoT), to improve performance by breaking prompts down into
sub-problems that can be decoded in parallel; however, they often suffer from
reduced response quality. Our key insight is that we can request additional
information, specifically dependencies and difficulty, when generating the
sub-problems to improve both response quality and performance. In this paper,
we propose Skeleton Graph Decoding (SGD), which uses dependencies exposed
between sub-problems to support information forwarding between dependent
sub-problems for improved quality while exposing parallelization opportunities
for decoding independent sub-problems. Additionally, we leverage difficulty
estimates for each sub-problem to select an appropriately-sized model,
improving performance without significantly reducing quality. Compared to
standard autoregressive generation and SoT, SGD achieves a 1.69x speedup while
improving quality by up to 51%.
- Abstract(参考訳): 大規模言語モデル(llm)は、大量のモデルパラメータ(例えば70b+)の成功によって、自然言語タスクにかなりの採用が見られたが、llm推論は、かなりの計算量とメモリコストを伴っている。
最近のアプローチでは、stoel-of-thought(sot)のような並列デコード戦略を提案し、プロンプトを並列にデコードできるサブプロンプトに分割することでパフォーマンスを向上させるが、応答品質の低下に苦しむことが多い。
私たちの重要な洞察は、サブプロブレムを生成して応答品質とパフォーマンスの両方を改善する際に、追加の情報、特に依存関係と困難を要求できるということです。
本稿では,サブプロブレム間の依存関係を公開して,依存サブプロブレム間の情報転送を支援するSkeleton Graph Decoding (SGD)を提案する。
さらに,各サブプロブレムの難易度推定を活用して,適切なサイズモデルを選択し,品質を著しく低下させることなく性能を向上させる。
sgdは標準のオートレグレッシブ・ジェネレーションとsotと比較して1.59倍のスピードアップを達成し、品質は最大51%向上した。
関連論文リスト
- Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation [23.65270067167911]
本研究の目的は,大規模言語モデル(LLM)のエンドツーエンド生成レイテンシの削減である。
そこで我々は,まずLSMを誘導して回答のスケルトンを生成し,次に並列API呼び出しやバッチデコードを行い,各スケルトン点の内容を並列に処理するSkeleton-of-Thought (SoT)を提案する。
SoTは推論効率をデータ中心で最適化するための最初の試みであり、言語で回答構造を明示的に計画することで高品質な回答を引き出す可能性を示している。
論文 参考訳(メタデータ) (2023-07-28T06:31:34Z) - Joint Graph Learning and Model Fitting in Laplacian Regularized
Stratified Models [5.933030735757292]
ラプラシア正規化成層モデル(Laplacian regularized Stratified Model、LRSM)は、サブプロブレムの明示的または暗黙的なネットワーク構造を利用するモデルである。
本稿では,LRSMにおけるグラフ重みの重要性と感度を示し,その感度が任意に大きいことを示す。
本稿では,1つの最適化問題を解くことで,モデルパラメータを適合させながらグラフを共同学習する汎用的手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T06:06:29Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Communication-Efficient Robust Federated Learning with Noisy Labels [144.31995882209932]
フェデレーテッド・ラーニング(FL)は、分散した位置データの上で、将来性のあるプライバシ保護機械学習パラダイムである。
FLにおける雑音ラベルの効果を緩和する学習に基づく再重み付け手法を提案する。
提案手法は,複数の実世界のデータセットにおいて,各種ベースラインと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-11T16:21:17Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。