論文の概要: Federated Language Models Under Bandwidth Budgets: Distillation Rates and Conformal Coverage
- arxiv url: http://arxiv.org/abs/2605.09986v1
- Date: Mon, 11 May 2026 05:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.53161
- Title: Federated Language Models Under Bandwidth Budgets: Distillation Rates and Conformal Coverage
- Title(参考訳): 帯域予算下におけるフェデレーション言語モデル:蒸留率と等角被覆
- Authors: Prasanjit Dubey, Xiaoming Huo,
- Abstract要約: 集中できない帯域制限ノードに散在するデータに基づいて言語モデルを訓練することは、臨床ネットワーク、企業知識基盤、科学コンソーシアムで発生する設定である。
ノード間でデータを分散し続けなければならない状況について検討し、明示的な帯域幅予算の下では、何の統計的保証が得られるのかを問う。
- 参考スコア(独自算出の注目度): 12.805268849262243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a language model on data scattered across bandwidth-limited nodes that cannot be centralized is a setting that arises in clinical networks, enterprise knowledge bases, and scientific consortia. We study the regime in which data must remain distributed across nodes, and ask what statistical guarantees are in principle achievable under explicit bandwidth budgets; we aim to characterize what is provably possible, not to demonstrate a deployment-ready system. Existing theory treats either training-time consistency or inference-time calibration in isolation, and none makes bandwidth a first-class statistical parameter. We analyze two protocols, Federated Probe-Logit Distillation (FPLD) for training and Federated Conformal RAG (FC-RAG) for inference, as the analytical vehicles for our results. Our first main result is an explicit high-probability KL-consistency rate for FPLD with simultaneous dependence on node count $K$, per-node sample size $n$, quantization budget $B$, probe-set size $m$, and vocabulary size $V$; bandwidth enters only through an exponentially vanishing quantization term. Our second main result is a distribution-free marginal-coverage bound for FC-RAG, whose novel retrieval-bandwidth slack $Δ_{\mathrm{RAG}} = f_{\max}\sqrt{K^{-2}\sum_i v(B_i)}$ makes per-node retrieval bandwidth a first-class statistical parameter, with arithmetic aggregation across $K$ nodes shrinking the slack as $K^{-1/2}$ in the per-node-uniform regime. A Pinsker-type corollary composes the two bounds into an end-to-end coverage guarantee. Synthetic experiments verify the predicted scaling along the bounds' parameters; small-scale experiments on a GPT-2 testbed illustrate that the qualitative bandwidth-accuracy tradeoff survives on a real language model. A deployment-scale empirical evaluation is out of scope.
- Abstract(参考訳): 集中できない帯域制限ノードに散在するデータに基づいて言語モデルを訓練することは、臨床ネットワーク、企業知識基盤、科学コンソーシアムで発生する設定である。
ノード間でデータを分散し続けなければならない状況について検討し、明示的な帯域幅予算の下では、何の統計的保証が得られるのかを原則として問う。
既存の理論では、トレーニング時の一貫性や推論時のキャリブレーションを個別に扱い、帯域幅を第一級の統計パラメータにするものは存在しない。
我々は,FPLD (Federated Probe-Logit Distillation) とFC-RAG (Federated Conformal RAG) の2つのプロトコルを解析対象として分析した。
最初の結果は、ノード数$K$、ノード当たりのサンプルサイズ$n$、量子化予算$B$、プローブセットサイズ$m$、ボキャブラリサイズ$V$、帯域幅は指数関数的に消滅する量子化項によってのみ入力される、FPLDの高確率KL一貫性率である。
2つ目の結果は、FC-RAGの分布自由な辺縁被覆であり、その新しい検索帯域幅スラック$Δ_{\mathrm{RAG}} = f_{\max}\sqrt{K^{-2}\sum_i v(B_i)}$はノードごとの検索帯域幅を1級統計パラメータとし、演算集約はノードごとのユニフォーム方式で$K^{-1/2}$としてスラックを縮小する。
ピンスカー型コーナリーは2つの境界をエンドツーエンドのカバレッジ保証に構成する。
GPT-2テストベッドでの小規模実験は、定性的帯域幅精度のトレードオフが実際の言語モデルで残っていることを示している。
デプロイメント規模の経験的評価はスコープ外です。
関連論文リスト
- Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - Probabilistically Tightened Linear Relaxation-based Perturbation Analysis for Neural Network Verification [83.25968588249776]
本稿では,LiRPAに基づく手法とサンプリングに基づく手法を組み合わせることで,厳密な中間到達性集合を計算できる新しいフレームワークを提案する。
無視可能な計算オーバーヘッドでは、$textttPT-LiRPA$は推定された到達可能な集合を利用し、ニューラルネットワークの出力の上下線形境界を著しく締め付ける。
論文 参考訳(メタデータ) (2025-07-07T18:45:53Z) - Optimal and Feasible Contextuality-based Randomness Generation [4.2126604059714685]
Kochen-Speckerコンテキスト性に基づく半独立(デバイスに依存しない)ランダムネス生成プロトコルは、コンパクトデバイスの魅力的な特徴を提供する。
一つのqubitが非文脈的であることを示し、$epsilon$-faithful NCHVモデルでは説明できないqubit相関が存在することを示す。
我々は、特定の文脈性テストのクラスに対する、量子的および一般整合性(非シグナリング)の敵による攻撃の可能性について指摘する。
論文 参考訳(メタデータ) (2024-12-28T12:11:07Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Collaborative non-parametric two-sample testing [55.98760097296213]
目標は、null仮説の$p_v = q_v$が拒否されるノードを特定することである。
グラフ構造を効率的に活用する非パラメトリックコラボレーティブ2サンプルテスト(CTST)フレームワークを提案する。
提案手法は,f-divergence Estimation, Kernel Methods, Multitask Learningなどの要素を統合する。
論文 参考訳(メタデータ) (2024-02-08T14:43:56Z) - On the Convergence of Federated Averaging under Partial Participation for Over-parameterized Neural Networks [13.2844023993979]
フェデレートラーニング(FL)は、ローカルデータを共有せずに複数のクライアントから機械学習モデルを協調的に作成するための分散パラダイムである。
本稿では,FedAvgが世界規模で世界規模で収束していることを示す。
論文 参考訳(メタデータ) (2023-10-09T07:56:56Z) - Self-Supervised Scalable Deep Compressed Sensing [24.854496459622787]
圧縮センシングはサンプリングコストを削減するための有望なツールである。
現在のディープニューラルネットワーク(NN)ベースのCS手法は、ラベル付き測定地上真実(GT)データ収集の課題に直面している。
本稿では,新しい$mathbfS$elf-supervised s$mathbfC$alable Deep CS法を提案する。
論文 参考訳(メタデータ) (2023-08-26T06:03:06Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。