論文の概要: Promise and Peril of Collaborative Code Generation Models: Balancing Effectiveness and Memorization
- arxiv url: http://arxiv.org/abs/2409.12020v1
- Date: Wed, 18 Sep 2024 14:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:24:06.763474
- Title: Promise and Peril of Collaborative Code Generation Models: Balancing Effectiveness and Memorization
- Title(参考訳): 協調コード生成モデルの約束と成功:有効性と記憶のバランスをとる
- Authors: Zhi Chen, Lingxiao Jiang,
- Abstract要約: 本研究では,コードの次点予測における協調学習手法の有効性に影響を及ぼす要因について検討する。
コードデータセットのサイズと多様性が、協調的に訓練されたコードモデルの成功に影響を及ぼす重要な要因であることを示す。
この結果から,トレーニングデータに見当たらない場合でも,推論中のデータ漏洩の持続的リスクが浮き彫りになった。
- 参考スコア(独自算出の注目度): 13.949319911378826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the rapidly evolving field of machine learning, training models with datasets from various locations and organizations presents significant challenges due to privacy and legal concerns. The exploration of effective collaborative training settings capable of leveraging valuable knowledge from distributed and isolated datasets is increasingly crucial. This study investigates key factors that impact the effectiveness of collaborative training methods in code next-token prediction, as well as the correctness and utility of the generated code, demonstrating the promise of such methods. Additionally, we evaluate the memorization of different participant training data across various collaborative training settings, including centralized, federated, and incremental training, highlighting their potential risks in leaking data. Our findings indicate that the size and diversity of code datasets are pivotal factors influencing the success of collaboratively trained code models. We show that federated learning achieves competitive performance compared to centralized training while offering better data protection, as evidenced by lower memorization ratios in the generated code. However, federated learning can still produce verbatim code snippets from hidden training data, potentially violating privacy or copyright. Our study further explores effectiveness and memorization patterns in incremental learning, emphasizing the sequence in which individual participant datasets are introduced. We also identify cross-organizational clones as a prevalent challenge in both centralized and federated learning scenarios. Our findings highlight the persistent risk of data leakage during inference, even when training data remains unseen. We conclude with recommendations for practitioners and researchers to optimize multisource datasets, propelling cross-organizational collaboration forward.
- Abstract(参考訳): 機械学習の分野では、さまざまな場所や組織のデータセットを用いたトレーニングモデルが、プライバシや法的懸念による重大な課題を提起している。
分散および分離されたデータセットから貴重な知識を活用することができる効果的な協調トレーニング設定の探索は、ますます重要になっている。
本研究では,コードの次点予測における協調学習手法の有効性と,生成したコードの正確性や有用性に影響を及ぼす重要な要因について検討し,そのような手法の可能性を実証する。
さらに,集中トレーニング,フェデレーショントレーニング,インクリメンタルトレーニングなど,さまざまな協調トレーニング環境における参加者の異なるトレーニングデータの記憶を評価することで,データ漏洩の潜在的なリスクを浮き彫りにしている。
この結果から,コードデータセットのサイズと多様性が,協調的に訓練されたコードモデルの成功に影響を及ぼす重要な要因であることが示唆された。
また,フェデレーション学習は,データ保護を向上しつつ,集中学習と比較して競争性能が向上することを示す。
しかし、フェデレートされた学習は、隠れたトレーニングデータから冗長なコードスニペットを生成することができ、プライバシーや著作権を侵害する可能性がある。
本研究は,個々の参加者データセットが導入されたシーケンスを強調することで,漸進学習における有効性と記憶パターンをさらに探求する。
また、組織横断的なクローンは、中央集権的な学習シナリオと連合的な学習シナリオの両方において、一般的な課題であると見なしている。
この結果から,トレーニングデータに見当たらない場合でも,推論中のデータ漏洩の持続的リスクが浮き彫りになった。
我々は、実践者や研究者がマルチソースデータセットを最適化し、組織間のコラボレーションを前進させるよう推奨することで締めくくります。
関連論文リスト
- Lightweight Unsupervised Federated Learning with Pretrained Vision Language Model [32.094290282897894]
フェデレートラーニングは、物理的に孤立したクライアントから、ユーザのデータのプライバシを保護しながら、集合モデルをトレーニングすることを目的としている。
本稿では,各クライアントのラベルのないデータを活用して,軽量なモデルトレーニングとコミュニケーションを行う,軽量な非教師付きフェデレーション学習手法を提案する。
提案手法は,CLIPのゼロショット予測と比較してモデル性能を大幅に向上させるとともに,教師付きフェデレーション学習ベンチマーク手法よりも優れる。
論文 参考訳(メタデータ) (2024-04-17T03:42:48Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - A Survey of Incremental Transfer Learning: Combining Peer-to-Peer
Federated Learning and Domain Incremental Learning for Multicenter
Collaboration [6.064986446665161]
データプライバシの制約は、マルチセンターコラボレーションによる高性能なディープラーニングモデルの開発を妨げる。
ウェイトトランスファーメソッドは、生データなしで中間モデルウェイトを共有するため、データのプライバシ制限を回避できる。
モデルを1つの中心から次の中心に移すと、問題を忘れてしまうため、性能低下が観測される。
本研究では、従来のドメイン/タスクインクリメンタル学習フレームワークをインクリメンタルトランスファー学習に適用する。
論文 参考訳(メタデータ) (2023-09-29T12:43:21Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Self-aware and Cross-sample Prototypical Learning for Semi-supervised
Medical Image Segmentation [10.18427897663732]
整合性学習は半教師付き医療画像セグメンテーションにおいて重要な役割を担っている。
これにより、注釈なしデータの豊富さを生かしながら、限られた注釈付きデータの有効利用が可能になる。
一貫性学習における予測の多様性を高めるために,自己認識型・クロスサンプル型学習法(SCP-Net)を提案する。
論文 参考訳(メタデータ) (2023-05-25T16:22:04Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z) - When Do Curricula Work in Federated Learning? [56.88941905240137]
カリキュラム学習は非IID性を大幅に軽減する。
クライアント間でデータ配布を多様化すればするほど、学習の恩恵を受けるようになる。
本稿では,クライアントの現実的格差を生かした新しいクライアント選択手法を提案する。
論文 参考訳(メタデータ) (2022-12-24T11:02:35Z) - Combining Data-driven Supervision with Human-in-the-loop Feedback for
Entity Resolution [47.90125404360125]
同一人物を表すデータポイントを特定し、統合するモデルを構築します。
このケーススタディでは、トレーニング・プロダクション性能のばらつきを解消するために、私たちのHuman-in-the-loopを有効にした、データ中心のソリューションについて論じる。
論文 参考訳(メタデータ) (2021-11-20T02:22:12Z) - DQRE-SCnet: A novel hybrid approach for selecting users in Federated
Learning with Deep-Q-Reinforcement Learning based on Spectral Clustering [1.174402845822043]
実世界の機密データに基づく機械学習モデルは、医療スクリーニングから病気の発生、農業、産業、防衛科学など幅広い分野で進歩している。
多くのアプリケーションにおいて、学習参加者のコミュニケーションラウンドは、独自のプライベートデータセットを収集し、実際のデータに対して詳細な機械学習モデルを教え、これらのモデルを使用することの利点を共有することの恩恵を受ける。
既存のプライバシとセキュリティ上の懸念から、ほとんどの人はトレーニング用の機密データ共有を回避している。各ユーザがローカルデータを中央サーバにデモしない限り、フェデレートラーニングは、さまざまなパーティが共用データ上で機械学習アルゴリズムをトレーニングすることを可能にする。
論文 参考訳(メタデータ) (2021-11-07T15:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。