論文の概要: Mutual Enhancement of Large and Small Language Models with Cross-Silo
Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2312.05842v1
- Date: Sun, 10 Dec 2023 09:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:28:34.520097
- Title: Mutual Enhancement of Large and Small Language Models with Cross-Silo
Knowledge Transfer
- Title(参考訳): クロスサイロ知識伝達を用いた大小言語モデルの相互強化
- Authors: Yongheng Deng, Ziqing Qiao, Ju Ren, Yang Liu, Yaoxue Zhang
- Abstract要約: 大規模言語モデル (LLM) には幅広い知識が与えられているが、そのタスク固有の性能は、しばしば準最適である。
タスク固有のデータで微調整 LLM を必要とするが、プライバシー上の懸念からアクセスできない可能性がある。
本研究では,より小さな言語モデル (SLM) でLLMを強化し,クライアント上でプライベートなタスク固有データを用いて学習する手法を提案する。
- 参考スコア(独自算出の注目度): 27.63746419563747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) are empowered with broad knowledge, their
task-specific performance is often suboptimal. It necessitates fine-tuning LLMs
with task-specific data, but such data may be inaccessible due to privacy
concerns. In this paper, we propose a novel approach to enhance LLMs with
smaller language models (SLMs) that are trained on clients using their private
task-specific data. To enable mutual enhancement between LLMs and SLMs, we
propose CrossLM, where the SLMs promote the LLM to generate task-specific
high-quality data, and both the LLM and SLMs are enhanced with the generated
data. We evaluate CrossLM using publicly accessible language models across a
range of benchmark tasks. The results demonstrate that CrossLM significantly
enhances the task-specific performance of SLMs on clients and the LLM on the
cloud server simultaneously while preserving the LLM's generalization
capability.
- Abstract(参考訳): 大きな言語モデル(LLM)は広い知識で権限を与えられるが、タスク固有のパフォーマンスは、しばしば準最適である。
タスク固有のデータで微調整 LLM を必要とするが、プライバシー上の懸念からアクセスできない可能性がある。
本稿では,より小さな言語モデル (SLM) を用いたLLMの拡張手法を提案する。
LLMとSLMの相互強化を実現するために,SLMがタスク固有の高品質なデータを生成するためにLSMを推進し,SLMとSLMの双方が生成されたデータによって拡張されるCrossLMを提案する。
様々なベンチマークタスクで公開言語モデルを用いてCrossLMを評価する。
その結果、CrossLMはクライアント上でのSLMのタスク固有性能と、LLMの一般化能力を同時に維持しながら、クラウドサーバ上でのLCMのタスク固有性能を著しく向上させることを示した。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - FedMKT: Federated Mutual Knowledge Transfer for Large and Small Language Models [28.284346666217207]
FedMKTは、大小の言語モデルのためのパラメータ効率の良い相互知識伝達フレームワークである。
我々は,FedMKTがLLMとSLMの両方の性能を同時に向上させることを示す。
論文 参考訳(メタデータ) (2024-06-04T11:36:09Z) - Parrot: Efficient Serving of LLM-based Applications with Semantic Variable [11.894203842968745]
Parrotは、LLMベースのアプリケーションのエンドツーエンドエクスペリエンスに焦点を当てたサービスシステムである。
Semantic Variableはリクエストのプロンプトで入出力変数に注釈を付け、複数のLLMリクエストを接続する際にデータパイプラインを生成する。
論文 参考訳(メタデータ) (2024-05-30T09:46:36Z) - Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data [53.70870879858533]
フェデレートされたドメイン固有の知識伝達フレームワークを紹介する。
クライアントのデータプライバシを保護しながら、LLMからSLMへのドメイン固有の知識転送を可能にする。
提案されたFDKTフレームワークは、プライバシー予算が10未満のSLMのタスクパフォーマンスを約5%改善する。
論文 参考訳(メタデータ) (2024-05-23T06:14:35Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。