論文の概要: Concordia: Self-Improving Synthetic Tables for Federated LLMs
- arxiv url: http://arxiv.org/abs/2605.09855v2
- Date: Mon, 18 May 2026 00:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.242959
- Title: Concordia: Self-Improving Synthetic Tables for Federated LLMs
- Title(参考訳): Concordia: フェデレーションLLMのための自己改善型合成テーブル
- Authors: Jimin Huang, Duanyu Feng, Nuo Chen, Xiaoyu Wang, Zhiqiang Zhang, Xueqing Peng, Mingquan Lin, Prayag Tiwari, Guojun Xiong, Alejandro Lopez-Lira, Sophia Ananiadou,
- Abstract要約: フェデレートラーニングは、生データを共有することなく、大きな言語モデル(LLM)をトレーニングすることを可能にする。
合成データ生成とフェデレートされた検証ユーティリティを連携させるフレームワークであるConcordiaを提案する。
- 参考スコア(独自算出の注目度): 80.03837595689608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated learning (FL) enables training large language models (LLMs) without sharing raw data, but adapting LLMs under strict data isolation and non-IID client distributions remains challenging in practice. Synthetic data offers a natural privacy-preserving surrogate for local training, yet existing federated pipelines typically treat synthetic generation as static or loosely coupled with downstream optimization, leading to rapidly diminishing utility under heterogeneous clients. We study federated adaptation of LLMs on tabular tasks where raw records and validation data cannot be shared, and local training must rely entirely on synthetic tables. We propose Concordia, a tri-level optimization framework that aligns synthetic data generation with federated validation utility despite these constraints. At the client level, models are adapted via parameter-efficient LoRA training on synthetic tables. Clients additionally learn lightweight utility scorers from private validation feedback to reweight synthetic samples during local training. At the outer level, each client refines its own synthetic table generator using group-relative policy optimization (GRPO), guided by an ensemble of heterogeneous scorers shared across clients, without aggregating generator parameters or exposing validation data. Experiments on privacy-sensitive tabular benchmarks from finance and healthcare demonstrate that Concordia consistently improves federated performance, cross-client stability, and robustness to distribution shift compared to static and decoupled synthetic-data baselines.
- Abstract(参考訳): FL(Federated Learning)は、生データを共有することなく、大規模言語モデル(LLM)のトレーニングを可能にするが、厳密なデータ分離と非IIDクライアント分散の下でのLLMの適用は、実際には困難なままである。
合成データは、ローカルトレーニングのための自然なプライバシ保存サロゲートを提供するが、既存のフェデレーションパイプラインは通常、合成生成を下流最適化と静的または緩やかな結合として扱う。
生のレコードと検証データを共有できない表型タスクに対して,LLMの連合的適応について検討し,局所学習は合成表に完全に依存しなければならないことを示した。
このような制約にもかかわらず、合成データ生成とフェデレートされたバリデーションユーティリティを整合させる三段階最適化フレームワークであるConcordiaを提案する。
クライアントレベルでは、モデルは合成テーブル上でパラメータ効率のよいLoRAトレーニングによって適応される。
クライアントは、プライベートなバリデーションフィードバックから、ローカルトレーニング中に合成サンプルの再重み付けまで、軽量なユーティリティスコアラを学習する。
外部レベルでは、各クライアントは、生成パラメータを集約したり、バリデーションデータを公開することなく、クライアント間で共有される異種スコアラーのアンサンブルによってガイドされる、グループ相対ポリシー最適化(GRPO)を使用して、独自の合成テーブルジェネレータを洗練する。
ファイナンスとヘルスケアによる、プライバシーに敏感な表層ベンチマークの実験は、Concordiaが静的および分離された合成データベースラインと比較して、フェデレーションパフォーマンス、クロスクライアント安定性、分散シフトに対する堅牢性を一貫して改善していることを示している。
関連論文リスト
- Resource-Adaptive Federated Text Generation with Differential Privacy [3.7397653111851814]
差分的プライベート(DP)合成データセットは、グローバルな分布を近似し、タスク間で再利用することができる。
クライアントの能力に適応するフレキシブルな参加フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T04:11:58Z) - CO-PFL: Contribution-Oriented Personalized Federated Learning for Heterogeneous Networks [51.43780477302533]
コントリビューション指向型PFL(CO-PFL)は,グローバルアグリゲーションに対する各クライアントのコントリビューションを動的に推定するアルゴリズムである。
CO-PFLは、パーソナライズ精度、堅牢性、スケーラビリティ、収束安定性において、最先端の手法を一貫して超越している。
論文 参考訳(メタデータ) (2025-10-23T05:10:06Z) - Federated Learning Meets LLMs: Feature Extraction From Heterogeneous Clients [0.0]
フェデレートラーニング(FL)は、生データを共有せずに協調的なモデルトレーニングを可能にする。
我々は,事前学習された大規模言語モデル(LLM)を普遍的特徴抽出器として利用するフレームワークであるFedLLM-Alignを提案する。
冠動脈疾患予測におけるFedLLM-Alignの評価は,シミュレートされたスキーマ分岐を用いた分割データセットを用いて行われる。
論文 参考訳(メタデータ) (2025-09-29T14:06:52Z) - LLMSynthor: Macro-Aligned Micro-Records Synthesis with Large Language Models [20.767947974005168]
LLM Synthorは、ターゲットのマクロ統計と一致した現実的なマイクロレコードを生成するマクロ認識シミュレータである。
合成データセットを反復的に構築し、合成アグリゲーションとターゲットアグリゲーションの差を最小限に抑える。
強力な現実主義、統計的忠実さ、実用性を実現し、経済学、社会科学、都市研究に広く応用されている。
論文 参考訳(メタデータ) (2025-05-20T13:35:38Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation [0.7373617024876725]
本研究では,タスク固有の微調整や,事前学習のための実世界のデータへのアクセスを必要とせずに,高品質な表形式データを生成する能力を示す。
GPT-4oをベンチマークするために、LLM生成合成データの忠実度とプライバシを条件付き生成対向ネットワーク(CTGAN)で生成されたデータと比較した。
ゼロショットアプローチにもかかわらず、GPT-4oは保存手段においてCTGANよりも優れ、95%の信頼区間、二変量相関、RWDのデータプライバシが増幅されたサンプルサイズでも優れていた。
論文 参考訳(メタデータ) (2025-02-20T12:56:16Z) - Towards Instance-adaptive Inference for Federated Learning [80.38701896056828]
Federated Learning(FL)は、複数のクライアントがローカルトレーニングを集約することで、強力なグローバルモデルを学ぶことができる分散学習パラダイムである。
本稿では,FedInsという新しいFLアルゴリズムを提案する。
我々のFedInsは、Tiny-ImageNet上での通信コストが15%未満で、トップパフォーマンスの手法に対して6.64%の改善など、最先端のFLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-11T09:58:47Z) - Federated Learning with GAN-based Data Synthesis for Non-IID Clients [8.304185807036783]
フェデレートラーニング(FL)は、最近、プライバシ保護のためのコラボレーティブラーニングパラダイムとして人気を博している。
我々は,合成データを共有することで,この非IID課題を解決するために,SDA-FL(Synthetic Data Aided Federated Learning)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-11T11:43:25Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。