論文の概要: Fast and Slow Generating: An Empirical Study on Large and Small Language Models Collaborative Decoding
- arxiv url: http://arxiv.org/abs/2406.12295v1
- Date: Tue, 18 Jun 2024 05:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:35:42.134193
- Title: Fast and Slow Generating: An Empirical Study on Large and Small Language Models Collaborative Decoding
- Title(参考訳): 高速かつスローな生成:大規模および小言語モデルの協調的デコーディングに関する実証的研究
- Authors: Kaiyan Zhang, Jianyu Wang, Ning Ding, Biqing Qi, Ermo Hua, Xingtai Lv, Bowen Zhou,
- Abstract要約: 大きな言語モデルと小さな言語モデル(SLM)の協調的復号化は、これらの課題に対処するための新しいアプローチを提供する。
デュアルプロセス認知理論に着想を得たこれらの手法を,FS-GEN(Fast and Slow Generating)と呼ばれる統合フレームワークに統合する。
本稿では、投機的復号化、コントラスト的復号化、エミュレータやプロキシの微調整など、FS-GENフレームワーク内のいくつかの手法について検討する。
- 参考スコア(独自算出の注目度): 27.004817441034795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive performance in diverse applications, yet they face significant drawbacks, including high inference latency, expensive training cost, and generation of hallucination. Collaborative decoding between large and small language models (SLMs) offers a novel approach to address these challenges. Inspired by dual-process cognitive theory, we integrate these methods into a unified framework termed Fast and Slow Generating (FS-GEN). This paper explores several techniques within the FS-GEN framework, including speculative decoding, contrastive decoding, and emulator or proxy fine-tuning. We provide a comprehensive analysis of these methodologies, offering insights into their similarities and differences under this framework. Our study delves into the differential knowledge capabilities of LLMs versus SLMs through the FS-GEN lens, revealing that fewer than 20% of collaborative interactions are required across various methods. These interactions adhere to a scaling law relative to the parameter ratios, thereby facilitating predictable collaboration. Furthermore, we investigate the specific positions where collaboration is most effective from an uncertainty perspective, yielding novel insights that could refine FS-GEN methods. Our findings reveal that the essential difference between models of different sizes lies in the uncertainty of the next token prediction, where interventions by larger models are most needed to assist the smaller ones. Code for Reproduction: https://github.com/TsinghuaC3I/FS-GEN
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なアプリケーションで顕著なパフォーマンスを示しているが、高い推論遅延、高価なトレーニングコスト、幻覚の生成など、大きな欠点に直面している。
大きな言語モデルと小さな言語モデル(SLM)の協調的復号化は、これらの課題に対処するための新しいアプローチを提供する。
両プロセス認知理論に着想を得たこれらの手法を,FS-GEN(Fast and Slow Generating)と呼ばれる統合フレームワークに統合する。
本稿では、投機的復号化、コントラスト的復号化、エミュレータやプロキシの微調整など、FS-GENフレームワーク内のいくつかの手法について検討する。
本稿では,これらの方法論を包括的に分析し,その類似点と相違点について考察する。
LLMとSLMの差分知識能力についてFS-GENレンズを用いて検討し、様々な方法で協調的な相互作用が20%未満必要であることが判明した。
これらの相互作用はパラメータ比に対するスケーリング法則に従属し、予測可能な協調を容易にする。
さらに、不確実性の観点から、協調が最も効果的である特定の位置について検討し、FS-GEN法を洗練できる新たな知見を得た。
以上の結果から,異なるサイズのモデル間の本質的な違いは,より大きなモデルによる介入がより小さなモデルを支援する上で必要となる,次のトークン予測の不確実性にあることがわかった。
再現コード:https://github.com/TsinghuaC3I/FS-GEN
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - Agent-OM: Leveraging LLM Agents for Ontology Matching [4.222245509121683]
本研究では,オントロジーマッチングシステムのための新しいエージェント駆動設計パラダイムを提案する。
オントロジーマッチングのためのエージェント-OMw.r.t.エージェントというフレームワークを提案する。
本システムは,OMタスクにおける長年の最高性能に非常に近い結果が得られる。
論文 参考訳(メタデータ) (2023-12-01T03:44:54Z) - Continual Learning, Fast and Slow [75.53144246169346]
補完学習システム理論(Complementary Learning Systems theory)によれば、人間は2つの相補的なシステムを通して効果的な共連続学習を行う。
EmphDualNets(Dual Networks)は、タスクの教師付き学習のための高速学習システムと、自己監視学習(SSL)によるタスク非依存の汎用表現の表現学習のための遅い学習システムからなる、一般的な連続学習フレームワークである。
我々はDualNetsの有望な成果を、標準的なオフラインタスク認識設定から、オンラインタスクフリーシナリオまで、幅広い連続的な学習プロトコルで実証する。
論文 参考訳(メタデータ) (2022-09-06T10:48:45Z) - Learning Physical Concepts in Cyber-Physical Systems: A Case Study [72.74318982275052]
本稿では,時系列データにおける物理概念の学習方法に関する研究の現状について概説する。
また,3タンクシステムの例を用いて,最先端技術から最も重要な手法を分析した。
論文 参考訳(メタデータ) (2021-11-28T14:24:52Z) - DualNet: Continual Learning, Fast and Slow [14.902239050081032]
我々は「DualNet」という新しい連続学習フレームワークを提案する。
特定のタスクからパターン分離表現を教師付き学習する高速学習システムと、自己監視学習(SSL)技術を介してタスク非依存の汎用表現を教師なしで表現する緩やかな学習システムとから構成される。
実験の結果、DualNetは最先端の連続学習手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2021-10-01T02:31:59Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。