論文の概要: Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission
- arxiv url: http://arxiv.org/abs/2507.00082v1
- Date: Mon, 30 Jun 2025 02:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.336584
- Title: Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission
- Title(参考訳): コミュニケーション効率向上のためのフェデレーション学習型ハイブリッド言語モデル
- Authors: Faranaksadat Solat, Joohyung Lee, Mohamed Seif, Dusit Niyato, H. Vincent Poor,
- Abstract要約: ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
- 参考スコア(独自算出の注目度): 87.68447072141402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid Language Models (HLMs) combine the low-latency efficiency of Small Language Models (SLMs) on edge devices with the high accuracy of Large Language Models (LLMs) on centralized servers. Unlike traditional end-to-end LLM inference, HLMs reduce latency and communication by invoking LLMs only when local SLM predictions are uncertain, i.e., when token-level confidence is low or entropy is high. However, ambiguous or low-confidence predictions still require frequent offloading to the LLM, leading to significant communication overhead in bandwidth-constrained settings. To address this, we propose FedHLM, a communication-efficient HLM framework that integrates uncertainty-aware inference with Federated Learning (FL). FedHLM's key innovation lies in collaboratively learning token-level uncertainty thresholds that govern when LLM assistance is needed. Rather than using static or manually tuned thresholds, FedHLM employs FL to optimize these thresholds in a privacy-preserving, distributed manner. Additionally, it leverages embedding-based token representations for Peer-to-Peer (P2P) resolution, enabling clients to reuse tokens inferred by semantically similar peers without engaging the LLM. We further introduce hierarchical model aggregation: edge servers refine local routing policies through client updates, while cross-cluster coordination aligns global decision boundaries. This layered design captures recurring uncertainty patterns, reducing redundant LLM queries. Experiments on large-scale news classification tasks show that FedHLM reduces LLM transmissions by over 95 percent with negligible accuracy loss, making it well-suited for scalable and efficient edge-AI applications.
- Abstract(参考訳): ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
従来のエンドツーエンドのLLM推論とは異なり、HLMはローカルなSLM予測が不確実である場合、すなわちトークンレベルの信頼性が低い場合やエントロピーが高い場合にのみ、LSMを呼び出すことでレイテンシと通信を減少させる。
しかし、不明瞭または低信頼の予測はLLMへの頻繁なオフロードを必要とするため、帯域幅に制約のある設定では通信オーバーヘッドが大きくなる。
そこで本稿では,不確実性認識推論とFederated Learning(FL)を統合した通信効率の高いHLMフレームワークであるFedHLMを提案する。
FedHLMの鍵となる革新は、LLMアシストが必要なときに管理されるトークンレベルの不確実性しきい値を協調的に学習することである。
静的あるいは手動で調整されたしきい値を使用する代わりに、FedHLMはFLを使用して、これらのしきい値をプライバシ保存、分散的な方法で最適化する。
さらに、Peer-to-Peer(P2P)解決のための埋め込みベースのトークン表現を活用することで、クライアントはLLMに関わらなくても、意味的に類似したピアによって推論されるトークンを再利用できる。
エッジサーバはクライアント更新を通じてローカルルーティングポリシーを洗練し、クラスタ間の調整はグローバルな意思決定境界を整合させる。
この階層化設計は、繰り返し発生する不確実なパターンをキャプチャし、冗長なLLMクエリを減らす。
大規模ニュース分類タスクの実験では、FedHLMは無視できる精度の損失でLLM伝送を95%以上削減し、スケーラブルで効率的なエッジAIアプリケーションに適している。
関連論文リスト
作成中
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。