論文の概要: Fast and Slow Generating: An Empirical Study on Large and Small Language Models Collaborative Decoding
- arxiv url: http://arxiv.org/abs/2406.12295v1
- Date: Tue, 18 Jun 2024 05:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:35:42.134193
- Title: Fast and Slow Generating: An Empirical Study on Large and Small Language Models Collaborative Decoding
- Title(参考訳): 高速かつスローな生成:大規模および小言語モデルの協調的デコーディングに関する実証的研究
- Authors: Kaiyan Zhang, Jianyu Wang, Ning Ding, Biqing Qi, Ermo Hua, Xingtai Lv, Bowen Zhou,
- Abstract要約: 大きな言語モデルと小さな言語モデル(SLM)の協調的復号化は、これらの課題に対処するための新しいアプローチを提供する。
デュアルプロセス認知理論に着想を得たこれらの手法を,FS-GEN(Fast and Slow Generating)と呼ばれる統合フレームワークに統合する。
本稿では、投機的復号化、コントラスト的復号化、エミュレータやプロキシの微調整など、FS-GENフレームワーク内のいくつかの手法について検討する。
- 参考スコア(独自算出の注目度): 27.004817441034795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive performance in diverse applications, yet they face significant drawbacks, including high inference latency, expensive training cost, and generation of hallucination. Collaborative decoding between large and small language models (SLMs) offers a novel approach to address these challenges. Inspired by dual-process cognitive theory, we integrate these methods into a unified framework termed Fast and Slow Generating (FS-GEN). This paper explores several techniques within the FS-GEN framework, including speculative decoding, contrastive decoding, and emulator or proxy fine-tuning. We provide a comprehensive analysis of these methodologies, offering insights into their similarities and differences under this framework. Our study delves into the differential knowledge capabilities of LLMs versus SLMs through the FS-GEN lens, revealing that fewer than 20% of collaborative interactions are required across various methods. These interactions adhere to a scaling law relative to the parameter ratios, thereby facilitating predictable collaboration. Furthermore, we investigate the specific positions where collaboration is most effective from an uncertainty perspective, yielding novel insights that could refine FS-GEN methods. Our findings reveal that the essential difference between models of different sizes lies in the uncertainty of the next token prediction, where interventions by larger models are most needed to assist the smaller ones. Code for Reproduction: https://github.com/TsinghuaC3I/FS-GEN
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なアプリケーションで顕著なパフォーマンスを示しているが、高い推論遅延、高価なトレーニングコスト、幻覚の生成など、大きな欠点に直面している。
大きな言語モデルと小さな言語モデル(SLM)の協調的復号化は、これらの課題に対処するための新しいアプローチを提供する。
両プロセス認知理論に着想を得たこれらの手法を,FS-GEN(Fast and Slow Generating)と呼ばれる統合フレームワークに統合する。
本稿では、投機的復号化、コントラスト的復号化、エミュレータやプロキシの微調整など、FS-GENフレームワーク内のいくつかの手法について検討する。
本稿では,これらの方法論を包括的に分析し,その類似点と相違点について考察する。
LLMとSLMの差分知識能力についてFS-GENレンズを用いて検討し、様々な方法で協調的な相互作用が20%未満必要であることが判明した。
これらの相互作用はパラメータ比に対するスケーリング法則に従属し、予測可能な協調を容易にする。
さらに、不確実性の観点から、協調が最も効果的である特定の位置について検討し、FS-GEN法を洗練できる新たな知見を得た。
以上の結果から,異なるサイズのモデル間の本質的な違いは,より大きなモデルによる介入がより小さなモデルを支援する上で必要となる,次のトークン予測の不確実性にあることがわかった。
再現コード:https://github.com/TsinghuaC3I/FS-GEN
関連論文リスト
- Topological Perspectives on Optimal Multimodal Embedding Spaces [0.0]
本稿では,CLIPと最近のCLOOBの比較分析について述べる。
提案手法は,モダリティギャップドライバ,高次元と低次元の両方に存在するクラスタリング構造,および各埋め込み空間を形成する上で,次元崩壊が果たす重要な役割を包括的に検討することを含む。
論文 参考訳(メタデータ) (2024-05-29T08:28:23Z) - A Survey of Distributed Learning in Cloud, Mobile, and Edge Settings [1.0589208420411014]
この調査では、クラウドとエッジ設定を含む分散学習の状況について調査する。
データとモデルの並列性という中核的な概念を掘り下げて、モデルをさまざまな次元と層に分割して、リソースの利用とパフォーマンスを最適化する方法を調べます。
計算効率,通信オーバヘッド,メモリ制約のトレードオフを浮き彫りにして,完全接続層,畳み込み層,繰り返し層など,さまざまなレイヤタイプに対するパーティショニング方式を解析する。
論文 参考訳(メタデータ) (2024-05-23T22:00:38Z) - A Survey on Efficient Inference for Large Language Models [25.572035747669275]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。
LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。
本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。
論文 参考訳(メタデータ) (2024-04-22T15:53:08Z) - Privacy Preserving Prompt Engineering: A Survey [14.402638881376419]
事前学習された言語モデル(PLM)は、広範囲の自然言語処理(NLP)タスクを解くのに非常に有能である。
その結果、これらのモデルのサイズは近年顕著に拡大している。
プライバシーに関する懸念は、広く使われている中で大きな障害となっている。
論文 参考訳(メタデータ) (2024-04-09T04:11:25Z) - Analyzing and Reducing Catastrophic Forgetting in Parameter Efficient
Tuning [9.38259062204602]
大規模言語モデル(LLM)は、言語理解と生成において顕著な性能を示す。
LLMは、複雑で多様なドメイン固有の下流タスクを継続的に微調整する。
可塑性学習とメモリ安定性のトレードオフを維持する必要がある。
論文 参考訳(メタデータ) (2024-02-29T05:27:45Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。