論文の概要: Floe: Federated Specialization for Real-Time LLM-SLM Inference
- arxiv url: http://arxiv.org/abs/2602.14302v1
- Date: Sun, 15 Feb 2026 20:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.946255
- Title: Floe: Federated Specialization for Real-Time LLM-SLM Inference
- Title(参考訳): Floe: リアルタイムLLM-SLM推論のためのフェデレーションスペシャライゼーション
- Authors: Chunlin Tian, Kahou Tam, Yebo Wu, Shuaihang Zhong, Li Li, Nicholas D. Lane, Chengzhong Xu,
- Abstract要約: Floeは、レイテンシに敏感でリソース制約のある環境向けに設計されたハイブリッドなフェデレーション学習フレームワークである。
個人データと微調整はオンデバイスのままであり、クラウドLLMはプロプライエタリな重みを公開せずに一般的な知識を提供する。
Floeはモデルパフォーマンスを大幅に改善し、リアルタイム制約下でエッジデバイスの推論遅延を低減する。
- 参考スコア(独自算出の注目度): 32.782914689403746
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deploying large language models (LLMs) in real-time systems remains challenging due to their substantial computational demands and privacy concerns. We propose Floe, a hybrid federated learning framework designed for latency-sensitive, resource-constrained environments. Floe combines a cloud-based black-box LLM with lightweight small language models (SLMs) on edge devices to enable low-latency, privacy-preserving inference. Personal data and fine-tuning remain on-device, while the cloud LLM contributes general knowledge without exposing proprietary weights. A heterogeneity-aware LoRA adaptation strategy enables efficient edge deployment across diverse hardware, and a logit-level fusion mechanism enables real-time coordination between edge and cloud models. Extensive experiments demonstrate that Floe enhances user privacy and personalization. Moreover, it significantly improves model performance and reduces inference latency on edge devices under real-time constraints compared with baseline approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)をリアルタイムシステムにデプロイすることは、計算上の要求とプライバシの懸念から、依然として困難である。
Floeは、レイテンシに敏感でリソース制約のある環境向けに設計されたハイブリッドなフェデレーション学習フレームワークである。
FloeはクラウドベースのブラックボックスLLMとエッジデバイス上の軽量な小言語モデル(SLM)を組み合わせることで、低レイテンシでプライバシ保護の推論を可能にする。
個人データと微調整はオンデバイスのままであり、クラウドLLMはプロプライエタリな重みを公開せずに一般的な知識を提供する。
ヘテロジニティを意識したLoRA適応戦略は、さまざまなハードウェア間の効率的なエッジデプロイメントを可能にし、ロジトレベルの融合機構により、エッジとクラウドモデルのリアルタイム調整を可能にする。
大規模な実験により、Floeはユーザーのプライバシーとパーソナライゼーションを強化する。
さらに、モデル性能を大幅に改善し、ベースラインアプローチと比較して、リアルタイム制約下でエッジデバイスの推論遅延を低減する。
関連論文リスト
- Closer to Reality: Practical Semi-Supervised Federated Learning for Foundation Model Adaptation [56.36237936346563]
ファンデーションモデル(FM)は顕著な一般化を示すが、下流のタスクに適応する必要がある。
データプライバシー規制のため、クラウドベースのFMはプライベートエッジデータに直接アクセスできない。
エッジデバイスがラベルのない低解像度のデータのみを保持する実践的セミスーパービジョン・フェデレーションラーニング(PSSFL)を導入する。
我々の研究は、フェデレートされたシナリオにおけるスケーラブルでプライバシ保護のFM適応の道を開いた。
論文 参考訳(メタデータ) (2025-08-22T17:47:02Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - CoSteer: Collaborative Decoding-Time Personalization via Local Delta Steering [80.54309860395763]
CoSteerは、ローカライズされたデルタステアリングを通じてデコード時のパーソナライズを可能にする、新しいコラボレーティブフレームワークである。
トークンレベルの最適化をオンライン学習問題として定式化し、ローカルデルタベクトルがリモートLLMのロジットを動的に調整する。
このアプローチは、生のデータや中間ベクトルではなく、最後のステアリングトークンのみを送信することで、プライバシを保護します。
論文 参考訳(メタデータ) (2025-07-07T08:32:29Z) - Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - FedShield-LLM: A Secure and Scalable Federated Fine-Tuned Large Language Model [0.48342038441006796]
Federated Learning (FL)は、LLM(Large Language Models)のトレーニングと微調整のための分散フレームワークを提供する。
FLはプライバシとセキュリティの懸念に対処し、LLMの相当な計算要求に関連する課題をナビゲートする。
ローランド適応 (LoRA) パラメータに対して, 完全同型暗号化 (FHE) を用いたプルーニングを用いた新しいFedShield-LLMを提案する。
論文 参考訳(メタデータ) (2025-06-06T00:05:05Z) - Are We There Yet? A Measurement Study of Efficiency for LLM Applications on Mobile Devices [5.926813659185372]
小型の大規模言語モデル(LLM)は、大きなモデルに比べて品質に制限があるにもかかわらず、強力なモバイルデバイス上で正常に動作することができる。
小型のLDMだけが強力なモバイルデバイス上で正常に動作するが、大型のモデルに比べて品質に制限がある。
論文 参考訳(メタデータ) (2025-03-10T16:27:17Z) - A Hybrid Swarm Intelligence Approach for Optimizing Multimodal Large Language Models Deployment in Edge-Cloud-based Federated Learning Environments [10.72166883797356]
Federated Learning (FL)、Multimodal Large Language Models (MLLM)、エッジ・クラウド・コンピューティングは分散およびリアルタイムのデータ処理を可能にする。
そこで本研究では,MLLMを十分なリソースとバッテリ寿命を備えたエッジデバイスにデプロイするハイブリッドフレームワークを提案する。
実験の結果,提案手法はシステム性能を大幅に向上し,92%の精度を実現し,通信コストを30%削減し,クライアントの参加性を高めた。
論文 参考訳(メタデータ) (2025-02-04T03:03:24Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大型言語モデル(LLM)は、人間のような優れた予測能力を示す。
LLMをデプロイして、エッジで効率的かつ適応的な推論サービスを提供するのは難しい。
本稿では,これらの課題に対処するために,LLM(CE-CoLLM)のための新しいクラウドエッジコラボレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。
学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。
また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文 参考訳(メタデータ) (2024-09-30T12:36:27Z) - Adaptive Model Pruning and Personalization for Federated Learning over
Wireless Networks [72.59891661768177]
フェデレーション学習(FL)は、データプライバシを保護しながら、エッジデバイス間での分散学習を可能にする。
これらの課題を克服するために、部分的なモデルプルーニングとパーソナライズを備えたFLフレームワークを検討する。
このフレームワークは、学習モデルを、データ表現を学ぶためにすべてのデバイスと共有されるモデルプルーニングと、特定のデバイスのために微調整されるパーソナライズされた部分とで、グローバルな部分に分割する。
論文 参考訳(メタデータ) (2023-09-04T21:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。