論文の概要: Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission
- arxiv url: http://arxiv.org/abs/2507.00082v1
- Date: Mon, 30 Jun 2025 02:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.336584
- Title: Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission
- Title(参考訳): コミュニケーション効率向上のためのフェデレーション学習型ハイブリッド言語モデル
- Authors: Faranaksadat Solat, Joohyung Lee, Mohamed Seif, Dusit Niyato, H. Vincent Poor,
- Abstract要約: ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
- 参考スコア(独自算出の注目度): 87.68447072141402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid Language Models (HLMs) combine the low-latency efficiency of Small Language Models (SLMs) on edge devices with the high accuracy of Large Language Models (LLMs) on centralized servers. Unlike traditional end-to-end LLM inference, HLMs reduce latency and communication by invoking LLMs only when local SLM predictions are uncertain, i.e., when token-level confidence is low or entropy is high. However, ambiguous or low-confidence predictions still require frequent offloading to the LLM, leading to significant communication overhead in bandwidth-constrained settings. To address this, we propose FedHLM, a communication-efficient HLM framework that integrates uncertainty-aware inference with Federated Learning (FL). FedHLM's key innovation lies in collaboratively learning token-level uncertainty thresholds that govern when LLM assistance is needed. Rather than using static or manually tuned thresholds, FedHLM employs FL to optimize these thresholds in a privacy-preserving, distributed manner. Additionally, it leverages embedding-based token representations for Peer-to-Peer (P2P) resolution, enabling clients to reuse tokens inferred by semantically similar peers without engaging the LLM. We further introduce hierarchical model aggregation: edge servers refine local routing policies through client updates, while cross-cluster coordination aligns global decision boundaries. This layered design captures recurring uncertainty patterns, reducing redundant LLM queries. Experiments on large-scale news classification tasks show that FedHLM reduces LLM transmissions by over 95 percent with negligible accuracy loss, making it well-suited for scalable and efficient edge-AI applications.
- Abstract(参考訳): ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
従来のエンドツーエンドのLLM推論とは異なり、HLMはローカルなSLM予測が不確実である場合、すなわちトークンレベルの信頼性が低い場合やエントロピーが高い場合にのみ、LSMを呼び出すことでレイテンシと通信を減少させる。
しかし、不明瞭または低信頼の予測はLLMへの頻繁なオフロードを必要とするため、帯域幅に制約のある設定では通信オーバーヘッドが大きくなる。
そこで本稿では,不確実性認識推論とFederated Learning(FL)を統合した通信効率の高いHLMフレームワークであるFedHLMを提案する。
FedHLMの鍵となる革新は、LLMアシストが必要なときに管理されるトークンレベルの不確実性しきい値を協調的に学習することである。
静的あるいは手動で調整されたしきい値を使用する代わりに、FedHLMはFLを使用して、これらのしきい値をプライバシ保存、分散的な方法で最適化する。
さらに、Peer-to-Peer(P2P)解決のための埋め込みベースのトークン表現を活用することで、クライアントはLLMに関わらなくても、意味的に類似したピアによって推論されるトークンを再利用できる。
エッジサーバはクライアント更新を通じてローカルルーティングポリシーを洗練し、クラスタ間の調整はグローバルな意思決定境界を整合させる。
この階層化設計は、繰り返し発生する不確実なパターンをキャプチャし、冗長なLLMクエリを減らす。
大規模ニュース分類タスクの実験では、FedHLMは無視できる精度の損失でLLM伝送を95%以上削減し、スケーラブルで効率的なエッジAIアプリケーションに適している。
関連論文リスト
- FedShield-LLM: A Secure and Scalable Federated Fine-Tuned Large Language Model [0.48342038441006796]
Federated Learning (FL)は、LLM(Large Language Models)のトレーニングと微調整のための分散フレームワークを提供する。
FLはプライバシとセキュリティの懸念に対処し、LLMの相当な計算要求に関連する課題をナビゲートする。
ローランド適応 (LoRA) パラメータに対して, 完全同型暗号化 (FHE) を用いたプルーニングを用いた新しいFedShield-LLMを提案する。
論文 参考訳(メタデータ) (2025-06-06T00:05:05Z) - Communication-Efficient Hybrid Language Model via Uncertainty-Aware Opportunistic and Compressed Transmission [65.17811759381978]
ハイブリッド言語モデル(HLM)は、遠隔大言語モデル(LLM)によって検証され、修正されるドラフトトークンを生成する。
通信効率と不確実性を考慮したHLM(CU-HLM)を提案する。
CU-HLMは、74.8%のトランスミッションを97.4%の語彙圧縮でスキップし、97.4%の精度を維持しながら、最大206$times$高いトークンスループットを達成することを示す。
論文 参考訳(メタデータ) (2025-05-17T02:10:34Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。
HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。
本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:08:18Z) - FedDTPT: Federated Discrete and Transferable Prompt Tuning for Black-Box Large Language Models [14.719919025265224]
特定のシナリオからのデータを調整した大きな言語モデル(LLM)は、プライバシリークのリスクを引き起こす。
ブラックボックス大言語モデルに対して,フェデレートされた離散的かつ転送可能なプロンプトチューニングであるFedDTPTを初めて提案する。
提案手法は,ブラックボックス設定における非IDデータに対する高い精度,通信オーバーヘッドの低減,ロバスト性を実現する。
論文 参考訳(メタデータ) (2024-11-01T19:19:23Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - FedMKT: Federated Mutual Knowledge Transfer for Large and Small Language Models [28.284346666217207]
FedMKTは、大小の言語モデルのためのパラメータ効率の良い相互知識伝達フレームワークである。
我々は,FedMKTがLLMとSLMの両方の性能を同時に向上させることを示す。
論文 参考訳(メタデータ) (2024-06-04T11:36:09Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。