論文の概要: Fast and Slow Generating: An Empirical Study on Large and Small Language Models Collaborative Decoding
- arxiv url: http://arxiv.org/abs/2406.12295v2
- Date: Wed, 23 Oct 2024 15:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:53:06.373131
- Title: Fast and Slow Generating: An Empirical Study on Large and Small Language Models Collaborative Decoding
- Title(参考訳): 高速かつスローな生成:大規模および小言語モデルの協調的デコーディングに関する実証的研究
- Authors: Kaiyan Zhang, Jianyu Wang, Ning Ding, Biqing Qi, Ermo Hua, Xingtai Lv, Bowen Zhou,
- Abstract要約: 大規模言語モデルと小言語モデル(SLM)の協調的復号化は,これらの問題を緩和するための有望な戦略を示す。
両プロセス認知理論に着想を得て,FS-GEN(Fast and Slow Generating)と呼ばれる統合フレームワークを提案する。
このフレームワーク内では、LSMはSystem 2(slow and intention)に、独立したSLMはSystem 1に分類される。
- 参考スコア(独自算出の注目度): 27.004817441034795
- License:
- Abstract: Large Language Models (LLMs) exhibit impressive capabilities across various applications but encounter substantial challenges such as high inference latency, considerable training costs, and the generation of hallucinations. Collaborative decoding between large and small language models (SLMs) presents a promising strategy to mitigate these issues through methods including speculative decoding, contrastive decoding, and emulator or proxy fine-tuning. However, the specifics of such collaborations, particularly from a unified perspective, remain largely unexplored. Inspired by dual-process cognitive theory, we propose a unified framework in this paper, termed Fast and Slow Generating (FS-GEN). Within this framework, LLMs (sometimes along with SLMs) are categorized as System 2 (slow and deliberate), while independent SLMs are designated as System 1 (fast and intuitive). We provide a comprehensive analysis of these collaborative methodologies, elucidating their common properties and shedding light on the differential knowledge capabilities of System 2 versus System 1 through the FS-GEN framework. Our findings indicate that only a small proportion of collaborative interactions (approximately less than 20\% in most instances) are necessary across various methods. These interactions between System 1 and System 2 conform to a scaling law related to the parameter ratios, enabling predictable collaboration. Furthermore, we explore the specific conditions under which collaboration proves most effective, particularly from an uncertainty perspective, offering novel insights that may guide future optimization efforts. Our research underscores that the fundamental distinction between System 1 and System 2 lies in the uncertainty of next token predictions, where interventions by System 2 are crucial to support System 1. Code for Reproduction: https://github.com/TsinghuaC3I/FS-GEN
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた機能を示すが、高い推論レイテンシ、相当なトレーニングコスト、幻覚の生成といった大きな課題に直面する。
大規模言語モデルと小言語モデル(SLM)の協調的復号化は、投機的復号化、コントラスト的復号化、エミュレータやプロキシの微調整といった手法によってこれらの問題を緩和する有望な戦略を示す。
しかし、このような共同作業の具体的な内容、特に統一的な観点からは、ほとんど未解明のままである。
本稿では,二プロセス認知理論に触発されて,FS-GEN(Fast and Slow Generating)と呼ばれる統合フレームワークを提案する。
この枠組みでは、LSMはシステム2(ゆっくりと意図的に)に分類され、独立したSLMはシステム1(高速かつ直感的に)に分類される。
FS-GENフレームワークを通じて,システム2とシステム1の差分知識能力について,共通性を解明し,光を遮蔽し,これらの協調手法を包括的に分析する。
研究結果によると, 共同作業の比率はごくわずか(ほとんどの場合, 20 %未満)で, 様々な手法で行う必要があることがわかった。
システム1とシステム2の相互作用はパラメータ比に関連するスケーリング法則に従っており、予測可能な協調を可能にする。
さらに、特に不確実性の観点から、コラボレーションが最も効果的であることを証明した特定の条件について検討し、将来の最適化の取り組みを導く新しい洞察を提供する。
システム1とシステム2の根本的な違いは次のトークン予測の不確実性にある。
再現コード:https://github.com/TsinghuaC3I/FS-GEN
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - Interactive Continual Learning: Fast and Slow Thinking [19.253164551254734]
本稿では,対話型連続学習フレームワークを提案する。
System1におけるメモリ検索を改善するために,von Mises-Fisher(vMF)分布に基づくCL-vMF機構を導入する。
提案したICLの包括的評価は,既存の手法と比較して,忘れられ,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-05T03:37:28Z) - Agent-OM: Leveraging LLM Agents for Ontology Matching [4.222245509121683]
本研究では,オントロジーマッチングシステムのための新しいエージェント駆動設計パラダイムを提案する。
オントロジーマッチングのためのエージェント-OMw.r.t.エージェントというフレームワークを提案する。
本システムは,OMタスクにおける長年の最高性能に非常に近い結果が得られる。
論文 参考訳(メタデータ) (2023-12-01T03:44:54Z) - Continual Learning, Fast and Slow [75.53144246169346]
補完学習システム理論(Complementary Learning Systems theory)によれば、人間は2つの相補的なシステムを通して効果的な共連続学習を行う。
EmphDualNets(Dual Networks)は、タスクの教師付き学習のための高速学習システムと、自己監視学習(SSL)によるタスク非依存の汎用表現の表現学習のための遅い学習システムからなる、一般的な連続学習フレームワークである。
我々はDualNetsの有望な成果を、標準的なオフラインタスク認識設定から、オンラインタスクフリーシナリオまで、幅広い連続的な学習プロトコルで実証する。
論文 参考訳(メタデータ) (2022-09-06T10:48:45Z) - Learning Physical Concepts in Cyber-Physical Systems: A Case Study [72.74318982275052]
本稿では,時系列データにおける物理概念の学習方法に関する研究の現状について概説する。
また,3タンクシステムの例を用いて,最先端技術から最も重要な手法を分析した。
論文 参考訳(メタデータ) (2021-11-28T14:24:52Z) - DualNet: Continual Learning, Fast and Slow [14.902239050081032]
我々は「DualNet」という新しい連続学習フレームワークを提案する。
特定のタスクからパターン分離表現を教師付き学習する高速学習システムと、自己監視学習(SSL)技術を介してタスク非依存の汎用表現を教師なしで表現する緩やかな学習システムとから構成される。
実験の結果、DualNetは最先端の連続学習手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2021-10-01T02:31:59Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。