論文の概要: Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models
- arxiv url: http://arxiv.org/abs/2408.08470v2
- Date: Tue, 29 Oct 2024 00:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 07:18:07.284259
- Title: Context-Aware Assistant Selection for Improved Inference Acceleration with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた推論高速化のための文脈認識アシスタントの選択
- Authors: Jerry Huang, Prasanna Parthasarathi, Mehdi Rezagholizadeh, Sarath Chandar,
- Abstract要約: 大規模言語モデル(LLM)は、リソース制約の下での使用は禁じられている。
自動回帰生成に付随する高いレイテンシは、高度なコンピューティングインフラストラクチャに依存する大きなLLMをレンダリングする。
復号化支援は これを軽減するのに役立ちましたが 2つのモデルのアライメントに依存しています
- 参考スコア(独自算出の注目度): 28.62382804829694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their widespread adoption, large language models (LLMs) remain prohibitive to use under resource constraints, with their ever growing sizes only increasing the barrier for use. One noted issue is the high latency associated with auto-regressive generation, rendering large LLMs use dependent on advanced computing infrastructure. Assisted decoding, where a smaller draft model guides a larger target model's generation, has helped alleviate this, but remains dependent on alignment between the two models. Thus if the draft model is insufficiently capable on some domain relative to the target model, performance can degrade. Alternatively, one can leverage multiple draft models to better cover the expertise of the target, but when multiple black-box draft models are available, selecting an assistant without details about its construction can be difficult. To better understand this decision making problem, we observe it as a contextual bandit, where a policy must choose a draft model based on a context. We show that even without prior knowledge of the draft models, creating an offline dataset from only outputs of independent draft/target models and training a policy over the alignment of these outputs can accelerate performance on multiple domains provided the candidates are effective. Further results show this to hold on various settings with multiple assisted decoding candidates, highlighting its flexibility and the advantageous role that such decision making can play.
- Abstract(参考訳): 広く採用されているにもかかわらず、大きな言語モデル(LLM)は、リソース制約の下での使用は禁じられている。
注目すべき問題は、自動回帰生成に関連するレイテンシが高く、大規模LLMを高度なコンピューティングインフラストラクチャに依存していることだ。
より小さなドラフトモデルがより大きなターゲットモデルの世代をガイドする支援デコーディングは、これを緩和するのに役立っているが、2つのモデルのアライメントに依存している。
したがって、ドラフトモデルがターゲットモデルに対するいくつかの領域で不十分な場合、性能は低下する可能性がある。
あるいは、ターゲットの専門知識をよりよくカバーするために複数のドラフトモデルを利用することもできるが、複数のブラックボックスドラフトモデルが利用可能であれば、その構築の詳細を知らないアシスタントを選択することは困難である。
この意思決定問題をよりよく理解するために、我々は、ポリシーがコンテキストに基づいてドラフトモデルを選択する必要がある状況の盗聴として、それを観察する。
ドラフトモデルの事前知識がなくても、独立したドラフト/ターゲットモデルの出力のみからオフラインデータセットを作成し、これらの出力のアライメントに関するポリシーをトレーニングすることで、候補が有効であれば、複数のドメインのパフォーマンスを向上できることを示す。
さらなる結果は、複数のデコード候補で様々な設定を保ち、その柔軟性と、そのような意思決定が果たすべき有利な役割を強調していることを示している。
関連論文リスト
- S2D: Sorted Speculative Decoding For More Efficient Deployment of Nested Large Language Models [32.68002253527712]
より高速な推論のためのドラフトモデルをデプロイするための、新しいマルチターゲットシナリオを紹介します。
マルチターゲット設定における正規ベースラインよりも優れた、より効率的なソートされた投機的復号化機構を提案する。
論文 参考訳(メタデータ) (2024-07-02T05:14:15Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - Budgeted Online Model Selection and Fine-Tuning via Federated Learning [26.823435733330705]
オンラインモデル選択では、候補モデルのセットからモデルを選択して、データのストリームで予測を実行する。
その後の候補モデルの選択は、パフォーマンスに決定的な影響を与えます。
本稿では,学習者グループ(クライアント)が十分なメモリを持つサーバと対話するオンラインフェデレーションモデル選択フレームワークを提案する。
提案したアルゴリズムを用いて、クライアントとサーバは微調整モデルと協調して非定常環境に適応する。
論文 参考訳(メタデータ) (2024-01-19T04:02:49Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文 参考訳(メタデータ) (2021-01-02T11:46:51Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。