論文の概要: Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning
- arxiv url: http://arxiv.org/abs/2510.08750v1
- Date: Thu, 09 Oct 2025 19:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.593402
- Title: Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning
- Title(参考訳): フェデレートラーニングのための大規模言語モデルにおける学習データのクライアント間記憶の探索
- Authors: Tinnakit Udsa, Can Udomcharoenchaikit, Patomporn Payoungkhamdee, Sarana Nutanong, Norrathep Rattanavipanon,
- Abstract要約: フェデレートラーニング(FL)は、生のデータ共有なしに協調的なトレーニングを可能にするが、それでもデータの記憶をトレーニングするリスクがある。
本研究では,細粒度クロスサンプル計測を用いて,FLにおけるクライアント内およびクライアント間記憶を定量化するフレームワークを提案する。
FLモデルでは,クライアントデータ,特にクライアント内データ,特にクライアント間データよりも,トレーニングや推論要因の影響を受けやすいことが判明した。
- 参考スコア(独自算出の注目度): 14.902584101415584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Federated learning (FL) enables collaborative training without raw data sharing, but still risks training data memorization. Existing FL memorization detection techniques focus on one sample at a time, underestimating more subtle risks of cross-sample memorization. In contrast, recent work on centralized learning (CL) has introduced fine-grained methods to assess memorization across all samples in training data, but these assume centralized access to data and cannot be applied directly to FL. We bridge this gap by proposing a framework that quantifies both intra- and inter-client memorization in FL using fine-grained cross-sample memorization measurement across all clients. Based on this framework, we conduct two studies: (1) measuring subtle memorization across clients and (2) examining key factors that influence memorization, including decoding strategies, prefix length, and FL algorithms. Our findings reveal that FL models do memorize client data, particularly intra-client data, more than inter-client data, with memorization influenced by training and inferencing factors.
- Abstract(参考訳): フェデレートラーニング(FL)は、生のデータ共有なしに協調的なトレーニングを可能にするが、それでもデータの記憶をトレーニングするリスクがある。
既存のFL記憶検出技術は1つのサンプルに1回ずつ焦点を合わせ、クロスサンプル記憶のより微妙なリスクを過小評価する。
対照的に、近年の集中学習(CL)の研究は、トレーニングデータ中のすべてのサンプルの記憶を微妙に評価する手法を導入しているが、これらはデータへの集中的なアクセスを前提としており、FLに直接適用することはできない。
このギャップを、すべてのクライアントに対してきめ細かなクロスサンプルメモリ化測定を用いて、FLにおけるクライアント内およびクライアント間メモリ化の両方を定量化するフレームワークを提案することにより、橋渡しする。
本研究では,(1)クライアント間の微妙な記憶を測定すること,(2)デコード戦略,プレフィックス長,FLアルゴリズムなど,記憶に影響を及ぼす重要な要因を調べること,の2つの研究を行う。
FLモデルでは,クライアントデータ,特にクライアント内データ,特にクライアント間データよりも,トレーニングや推論要因の影響を受けやすいことが判明した。
関連論文リスト
- Learn How to Query from Unlabeled Data Streams in Federated Learning [8.963441227294235]
フェデレートラーニング(FL)は、分散クライアント間の協調学習を可能にすると同時に、ローカルデータのプライバシ保護を可能にする。
FLに関する既存の研究は、トレーニングを開始すると、通常、各クライアントで利用可能なオフラインラベル付きデータを仮定する。
高価なアノテーションのコストを考えると、クライアントにラベルをつけるための情報的サンプルのサブセットを特定することが重要です。
論文 参考訳(メタデータ) (2024-12-11T06:51:45Z) - FedSampling: A Better Sampling Strategy for Federated Learning [81.85411484302952]
フェデレートラーニング(FL)は、プライバシを保存する方法で分散化されたデータからモデルを学習するための重要なテクニックである。
既存のFLメソッドは通常、各ラウンドでローカルモデル学習のために一様にクライアントをサンプリングする。
フェデレート学習のための新しいデータ一様サンプリング戦略(FedSampling)を提案する。
論文 参考訳(メタデータ) (2023-06-25T13:38:51Z) - DPP-based Client Selection for Federated Learning with Non-IID Data [97.1195165400568]
本稿では,統合学習(FL)のコミュニケーションボトルネックに対処するクライアント選択(CS)手法を提案する。
まず、FLにおけるCSの効果を分析し、各学習ラウンドにおけるトレーニングデータセットの多様化に参加者を適切に選択することで、FLトレーニングを加速させることができることを示す。
我々は、データプロファイリングと決定点プロセス(DPP)サンプリング技術を活用し、DPPに基づく参加者選択(FL-DP$3$S)によるフェデレートラーニング(Federated Learning)と呼ばれるアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-03-30T13:14:54Z) - Improving Privacy-Preserving Vertical Federated Learning by Efficient Communication with ADMM [62.62684911017472]
フェデレートラーニング(FL)により、デバイスは共有モデルを共同でトレーニングし、トレーニングデータをプライバシ目的でローカルに保つことができる。
マルチヘッド(VIM)を備えたVFLフレームワークを導入し、各クライアントの別々のコントリビューションを考慮に入れます。
VIMは最先端技術に比べて性能が著しく向上し、収束が速い。
論文 参考訳(メタデータ) (2022-07-20T23:14:33Z) - Federated Contrastive Learning for Volumetric Medical Image Segmentation [16.3860181959878]
フェデレートラーニング(FL)は、プライバシのためのトレーニングデータをローカルに保持しながら、共有モデルを学ぶことで、この点において役立つ。
従来のFLはトレーニングのために完全にラベル付けされたデータを必要とする。
そこで本研究では,アノテーションを限定したボリューム・メディカル・イメージ・セグメンテーションのためのFCLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-23T03:47:23Z) - Distributed Unsupervised Visual Representation Learning with Fused
Features [13.935997509072669]
フェデレートラーニング(FL)により、分散クライアントは、各クライアントにトレーニングデータをローカルに保持しながら、予測のための共有モデルを学ぶことができる。
本稿では,特徴融合と近傍マッチングという2つのアプローチからなる相互比較学習フレームワークを提案する。
IIDデータでは、他の手法よりも11%優れており、集中学習のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2021-11-21T08:36:31Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z) - Understanding Unintended Memorization in Federated Learning [5.32880378510767]
フェデレートラーニングの異なるコンポーネントが意図しない暗記を減らす上で重要な役割を担っていることを示す。
また,意図しない記憶の少ないモデルにおいて,強いユーザレベルの差分プライバシ保証によるトレーニングが結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-12T22:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。