論文の概要: When Fine-Tuning LLMs Meets Data Privacy: An Empirical Study of Federated Learning in LLM-Based Program Repair
- arxiv url: http://arxiv.org/abs/2412.01072v1
- Date: Mon, 02 Dec 2024 03:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:48:39.859519
- Title: When Fine-Tuning LLMs Meets Data Privacy: An Empirical Study of Federated Learning in LLM-Based Program Repair
- Title(参考訳): LLMの微調整とデータプライバシ--LLMによるプログラム修復におけるフェデレーション学習の実証的研究
- Authors: Wenqiang Luo, Jacky Wai Keung, Boyang Yang, He Ye, Claire Le Goues, Tegawende F. Bissyande, Haoye Tian, Bach Le,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア開発とメンテナンスプラクティスの強化において、顕著な可能性を示している。
本稿では,プライバシ保護手法としてのフェデレーション学習の活用について検討する。
- 参考スコア(独自算出の注目度): 6.272393194285371
- License:
- Abstract: Software systems have been evolving rapidly and inevitably introducing bugs at an increasing rate, leading to significant losses in resources consumed by software maintenance. Recently, large language models (LLMs) have demonstrated remarkable potential in enhancing software development and maintenance practices, particularly in automated program repair (APR) with improved accuracy and efficiency of bug fixing. However, LLM-based APR heavily relies on high-quality code repositories. A larger portion of existing code repositories are for private use and proprietary assets from various industries, reflecting more diversity and nuances in the data since real-world industries often have more extensive software development practices, which cannot be covered by merely public datasets. Therefore, utilizing private datasets shows significant potential in enhancing software development and maintenance. However, obtaining such data from various industries is hindered by data privacy concerns, as companies are reluctant to share their codebases. To address the gap, we investigate the use of federated learning as a privacy-preserving approach that enables private entities to fine-tune LLMs on proprietary and decentralized data, facilitating the collaboration between clients to fully utilize their data to help enhance software development and maintenance. Our evaluation reveals that federated fine-tuning can effectively enhance program repair capabilities. Notably, the impact of heterogeneous code on LLM fine-tuning is negligible, indicating that real-world industries can benefit from collaborative development regardless of diverse data distributions. Furthermore, each type of federated algorithm exhibits unique strengths across different LLMs, suggesting that fine-tuning for program repair can be enhanced by tailoring the optimization process to specific characteristics of different LLMs.
- Abstract(参考訳): ソフトウェアシステムは急速に進化し、必然的にバグを発生させ、ソフトウェアのメンテナンスによって消費されるリソースに大きな損失をもたらしています。
近年,大規模言語モデル (LLM) は,特に自動プログラム修復 (APR) において,バグ修正の精度と効率を向上し,ソフトウェア開発とメンテナンスの実践を向上する大きな可能性を示している。
しかし、LLMベースのAPRは高品質なコードリポジトリに大きく依存している。
既存のコードリポジトリの大部分は、さまざまな産業のプライベートな利用とプロプライエタリな資産のためのものであり、実際の業界では、単に公開データセットでカバーできないような、より広範なソフトウェア開発プラクティスがあるため、データの多様性とニュアンスを反映している。
したがって、プライベートデータセットの利用は、ソフトウェア開発とメンテナンスを強化する大きな可能性を秘めている。
しかし、さまざまな業界からそのようなデータを取得することは、企業がコードベースを共有するのに消極的であるため、データのプライバシー上の懸念によって妨げられている。
このギャップに対処するため,プライバシ保護手法としてフェデレーションラーニング(Federated Learning)を用いることで,プライベートエンティティが独自および分散データ上でLLMを微調整することが可能になる。
評価の結果,フェデレートされた微調整は,プログラム修復能力を効果的に向上させることができることがわかった。
特に、LLMの微調整における異種コードの影響は無視できるものであり、様々なデータ分布に関係なく、現実世界の産業が協調開発から恩恵を受けられることを示している。
さらに,各種類のフェデレーションアルゴリズムは異なるLLMに対して独自の強度を示し,最適化プロセスを異なるLLMの特定の特性に合わせることでプログラム修復の微調整を向上できることを示した。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Model-Based Differentially Private Knowledge Transfer for Large Language Models [34.949731264918846]
プライバシ保護,ドメイン固有モデルを大規模言語モデルに統合するフレームワークである textitLlamdex を提案する。
提案手法はドメイン固有のタスクの精度を大幅に向上させ,既存手法と比較して最大26%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-14T13:18:20Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data [53.70870879858533]
フェデレートされたドメイン固有の知識伝達フレームワークを紹介する。
クライアントのデータプライバシを保護しながら、LLMからSLMへのドメイン固有の知識転送を可能にする。
提案されたFDKTフレームワークは、プライバシー予算が10未満のSLMのタスクパフォーマンスを約5%改善する。
論文 参考訳(メタデータ) (2024-05-23T06:14:35Z) - Data Collaboration Analysis Over Matrix Manifolds [0.0]
プライバシー保護機械学習(PPML)は、機密情報の保護によってこの問題に対処する。
NRI-DCフレームワークは革新的なアプローチとして登場し、機関間の「データアイランド」問題を解消する可能性がある。
本研究は,これらの協調関数の厳密な理論的基礎を確立し,新しい定式化を導入する。
論文 参考訳(メタデータ) (2024-03-05T08:52:16Z) - Privacy-Enhancing Collaborative Information Sharing through Federated
Learning -- A Case of the Insurance Industry [1.8092553911119764]
このレポートは、複数の保険業界データセットにまたがる単一のモデルを学ぶために、フェデレートラーニング(FL)の価値を活用する利点を実証している。
FLは、プライバシの懸念によって引き起こされる、データボリュームの制限とデータの多様性の2つに対処する。
FLの各ラウンドにおいて、コラボレータはローカルなプライベートデータを使用してモデルの改善を計算し、これらの洞察を組み合わせてグローバルなモデルを更新する。
論文 参考訳(メタデータ) (2024-02-22T21:46:24Z) - Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning [32.52811740662061]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。
DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2023-12-29T06:50:38Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。