論文の概要: CoGenesis: A Framework Collaborating Large and Small Language Models for Secure Context-Aware Instruction Following
- arxiv url: http://arxiv.org/abs/2403.03129v2
- Date: Thu, 6 Jun 2024 09:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 21:02:35.702182
- Title: CoGenesis: A Framework Collaborating Large and Small Language Models for Secure Context-Aware Instruction Following
- Title(参考訳): CoGenesis: セキュアなコンテキスト認識インストラクションのための大規模と小規模の言語モデルをコラボレーションするフレームワーク
- Authors: Kaiyan Zhang, Jianyu Wang, Ermo Hua, Biqing Qi, Ning Ding, Bowen Zhou,
- Abstract要約: 本稿では,大規模(クラウドインフラストラクチャにホストされている)と小型(ローカルデバイスにデプロイされている)を統合し,論理的にプライバシー問題に対処する協調生成フレームワークを提案する。
1) ユーザコンテキストが提供されると大規模モデルの性能は良好に向上するが,そのようなコンテキストの欠如に苦慮する。
我々のフレームワークは、混合スケールモデルを利用して、競争性能を示し、プライバシー問題に対する実現可能な解決策を提供します。
- 参考スコア(独自算出の注目度): 27.22804560751958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancement of language models (LMs), their exposure to private data is increasingly inevitable, and their deployment (especially for smaller ones) on personal devices, such as PCs and smartphones, has become a prevailing trend. In contexts laden with user information, enabling models to both safeguard user privacy and execute commands efficiently emerges as an essential research imperative. In this paper, we propose CoGenesis, a collaborative generation framework integrating large (hosted on cloud infrastructure) and small models (deployed on local devices) to address privacy concerns logically. Initially, we design a pipeline to create personalized writing instruction datasets enriched with extensive context details as the testbed of this research issue. Subsequently, we introduce two variants of CoGenesis based on sketch and logits respectively. Our experimental findings, based on our synthesized dataset and two additional open-source datasets, indicate that: 1) Large-scale models perform well when provided with user context but struggle in the absence of such context. 2) While specialized smaller models fine-tuned on the synthetic dataset show promise, they still lag behind their larger counterparts. 3) Our CoGenesis framework, utilizing mixed-scale models, showcases competitive performance, providing a feasible solution to privacy issues.
- Abstract(参考訳): 言語モデル(LM)の進歩により、プライベートデータへの露出はますます避けられなくなり、PCやスマートフォンなどのパーソナルデバイスへの(特に小さなデバイスへの)展開が主流となっている。
ユーザ情報を伴うコンテキストでは、モデルがユーザのプライバシを保護し、コマンドを実行することが、本質的な研究命令として効果的に現れる。
本稿では,CoGenesisを提案する。CoGenesisは,大規模(クラウドインフラストラクチャにホストされている)と小型(ローカルデバイスにデプロイされている)を統合して,論理的にプライバシ問題に対処する,協調生成フレームワークである。
当初我々は、この研究課題の試行錯誤として、広範囲なコンテキストの詳細に富んだ、パーソナライズされた記述命令データセットを作成するパイプラインを設計した。
その後,スケッチとロジットに基づく2種類のCoGenesisを紹介した。
我々の合成データセットと2つの追加のオープンソースデータセットに基づく実験結果から、以下のことが示されている。
1) 大規模モデルではユーザコンテキストが提供されるが,そのようなコンテキストの欠如に苦慮する。
2) 合成データセットに微調整された特殊な小型モデルでは、将来性を示すが、それでも大きなモデルよりも遅れている。
3)我々のCoGenesisフレームワークは、混合スケールモデルを利用して、競合性能を示し、プライバシー問題に対する実現可能な解決策を提供します。
関連論文リスト
- RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。
提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。
以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-15T06:26:17Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z) - Data-to-text Generation with Macro Planning [61.265321323312286]
本稿では,マクロ計画段階のニューラルモデルと,従来の手法を連想させる生成段階を提案する。
提案手法は, 自動評価と人的評価の両面で, 競争ベースラインを上回っている。
論文 参考訳(メタデータ) (2021-02-04T16:32:57Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。