論文の概要: Towards the Next Frontier of LLMs, Training on Private Data: A Cross-Domain Benchmark for Federated Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.13936v1
- Date: Wed, 13 May 2026 16:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.428968
- Title: Towards the Next Frontier of LLMs, Training on Private Data: A Cross-Domain Benchmark for Federated Fine-Tuning
- Title(参考訳): LLMの次のフロンティアに向けて:フェデレーションファインチューニングのためのクロスドメインベンチマーク
- Authors: Daniel M. Jimenez-Gutierrez, Enrique Zuazua, Georgios Kellaris, Joaquin del Rio, Oleksii Sliusarenko, Xabi Uribe-Etxebarria,
- Abstract要約: 世界で最も価値のある情報は、特に医療や金融などの高度に規制された分野において、プライベートである。
本稿では,大規模言語モデル(LLM)適応のための,プライベートおよび分散機関データのアンロックに関する実践的アプローチを示す。
当社のフレームワークは,Sherpa.aiフェデレーテッドラーニングプラットフォーム上に構築されており,プライベートデータを交換することなく,共有LLMを共同で微調整することができる。
- 参考スコア(独自算出の注目度): 0.44333156307871574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success of large language models (LLMs) has been largely driven by vast public datasets. However, the next frontier for LLM development lies beyond public data. Much of the world's most valuable information is private, especially in highly regulated sectors such as healthcare and finance, where data include patient histories or customer communications. Unlocking this data could represent a major leap forward, enabling LLMs with deeper domain expertise and stronger real-world utility. Yet, these data cannot be shared because they are distributed across institutions and constrained by privacy, regulatory, and organizational barriers. Moreover, institutional datasets are typically non-independent and identically distributed (non-IID), differing across sites in population characteristics, data modalities, documentation patterns, and task-specific label distributions. In this paper, we demonstrate a practical approach to unlocking private and distributed institutional data for LLM adaptation through federated collaboration across data silos. Built on the Sherpa.ai Federated Learning platform, our framework enables nodes to jointly fine-tune a shared LLM without exchanging private data. We evaluate this approach through a cross-domain benchmark in healthcare and finance, using four closed-ended question answering and classification datasets: MedQA, MedMCQA, FPB, and FiQA-SA. We compare three parameter-efficient fine-tuning (PEFT) strategies-LoRA, QLoRA, and IA3-across pretrained backbones under non-IID settings reflecting institutional data heterogeneity. Our results show that federated fine-tuning performs close to centralized training and outperforms isolated single-institution learning. From a Green AI perspective, QLoRA and IA3 improve efficiency with limited accuracy degradation, supporting federated PEFT as a viable approach for adapting LLMs where data cannot be shared.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の成功は大半が公開データセットによって支えられている。
しかし、LLM開発の次のフロンティアは、公開データを超えている。
世界で最も価値のある情報は、特に患者の履歴や顧客とのコミュニケーションを含む医療や金融などの高度に規制された分野において、プライベートである。
このデータをアンロックすることは大きな飛躍であり、より深いドメインの専門知識とより強力な現実世界のユーティリティを持つLLMを可能にする。
しかし、これらのデータは、機関に分散し、プライバシー、規制、組織的障壁によって制約されるため、共有することはできない。
さらに、組織データセットは、通常、非独立で同一の分散(非IID)であり、人口特性、データモダリティ、ドキュメントパターン、タスク固有のラベル分布において異なる。
本稿では,データサイロ間の連携を通じて,LLM適応のためのプライベートおよび分散機関データのアンロックを実現するための実践的アプローチを示す。
当社のフレームワークは,Sherpa.aiフェデレーテッドラーニングプラットフォーム上に構築されており,プライベートデータを交換することなく,共有LLMを共同で微調整することができる。
我々は、MedQA、MedMCQA、FPB、FiQA-SAの4つのクローズドエンド質問応答と分類データセットを用いて、医療と金融のクロスドメインベンチマークを用いてこのアプローチを評価する。
施設データの不均一性を反映した非IID環境下での3つのパラメータ効率細調整(PEFT)戦略(LoRA, QLoRA, IA3-across)を比較した。
以上の結果から,フェデレーションファインチューニングは集中訓練に近づき,孤立した単施設学習に優れることがわかった。
グリーンAIの観点から、QLoRAとIA3は、データの共有できないLLMに適応するための実行可能なアプローチとして、フェデレートされたPEFTをサポートし、精度の低下を限定して効率を向上する。
関連論文リスト
- FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment [55.97027207627]
Fed PDPO(Federated Personalized Direct Preference Optimization)は、大規模言語モデル(LLM)の優先順位調整のためのパーソナライズされたフレームワークである。
パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。
複数の嗜好データセットの実験では、最先端のパフォーマンスを示し、フェデレーション付きドメイン内およびクロスドメイン設定の平均精度が4.80%向上した。
論文 参考訳(メタデータ) (2026-03-20T08:24:49Z) - Can Federated Learning Safeguard Private Data in LLM Training? Vulnerabilities, Attacks, and Defense Evaluation [20.37072541084284]
フェデレートラーニング(FL)により、クライアントは、コラボレーティブトレーニングのためのモデルパラメータのみを共有しながら、ローカルデータを保持できる。
攻撃者は、簡単な生成方法を用いても、グローバルモデルからトレーニングデータを抽出できることを示す。
FLに合わせた攻撃戦略を導入し、トレーニング中にグローバルモデルのアップデートを追跡し、プライバシーの漏洩を強化する。
論文 参考訳(メタデータ) (2025-09-25T02:28:08Z) - Oblivionis: A Lightweight Learning and Unlearning Framework for Federated Large Language Models [32.059157903736754]
大規模言語モデル(LLM)は、フェデレートラーニング(FL)を活用して、プライベートなタスク固有のデータセットを微調整に利用している。
Oblivionisは、クライアントが特定のプライベートデータを選択的に削除できる軽量学習およびアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-08-12T12:02:53Z) - FlowerTune: A Cross-Domain Benchmark for Federated Fine-Tuning of Large Language Models [43.62847972139202]
大規模言語モデル(LLM)は様々な領域で最先端の成果を上げてきたが、その開発は大量の公開データに依存している。
この研究は、現実世界のアプリケーションのためのプライバシ保護、ドメイン特化LDMの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-06-03T14:54:12Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data [53.70870879858533]
フェデレートされたドメイン固有の知識伝達フレームワークを紹介する。
クライアントのデータプライバシを保護しながら、LLMからSLMへのドメイン固有の知識転送を可能にする。
提案されたFDKTフレームワークは、プライバシー予算が10未満のSLMのタスクパフォーマンスを約5%改善する。
論文 参考訳(メタデータ) (2024-05-23T06:14:35Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Benchmarking FedAvg and FedCurv for Image Classification Tasks [1.376408511310322]
本稿では,同じフェデレーションネットワークにおけるデータの統計的不均一性の問題に焦点をあてる。
FedAvg、FedProx、Federated Curvature(FedCurv)など、いくつかのフェデレートラーニングアルゴリズムがすでに提案されている。
この研究の副産物として、FLコミュニティからのさらなる比較を容易にするために使用したデータセットの非IIDバージョンをリリースします。
論文 参考訳(メタデータ) (2023-03-31T10:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。