論文の概要: CoLLM: A Unified Framework for Co-execution of LLMs Federated Fine-tuning and Inference
- arxiv url: http://arxiv.org/abs/2604.16400v1
- Date: Tue, 31 Mar 2026 09:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.965492
- Title: CoLLM: A Unified Framework for Co-execution of LLMs Federated Fine-tuning and Inference
- Title(参考訳): CoLLM: 微調整と推論を融合したLLMの共同実行のための統一フレームワーク
- Authors: Shaoyuan Huang, Xiaokai Wang, Na Yan, Xiaofei Wang, Wenyu Wang, Yansha Deng,
- Abstract要約: CoLLMは、FL PEFTと共有エッジレプリカとモデルパラメータの推論を統一するシステムである。
常に最先端のLLMシステムより優れており、最大で3倍高い出力を実現している。
- 参考スコア(独自算出の注目度): 33.14453252489961
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly adopted in edge intelligence to power domain-specific applications and personalized services, the quality and efficiency of the LLM post-training phase-including fine-tuning and inference, have become critical due to constrained resources. Although recent advances in federated parameter-efficient fine-tuning (FL PEFT) and low-latency inference have improved individual task performance, fine-tuning and inference are still handled as isolated workloads, which overlooks their interdependence and results in redundant deployments and delayed improvement in inference quality. To address these limitations, we introduce a new co-execution framework and instantiate it with CoLLM, a system that unifies FL PEFT and inference on shared edge replicas and model parameters. CoLLM addresses key challenges at both replica and cluster levels through: (1) an intra-replica model sharing mechanism that enables real-time model parameter reuse via unmerged inference and shadow adapter strategies; and (2) a two-timescale inter-replica coordination algorithm that adaptively balances fine-tuning and inference workloads to jointly optimize long-term model quality gains and short-term inference efficiency. Extensive evaluation across diverse LLMs and real-world traces show that CoLLM consistently outperforms state-of-the-art LLM systems, achieving up to 3x higher goodput, demonstrating its effectiveness in enabling seamless LLM post-training for edge intelligence.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドメイン固有のアプリケーションやパーソナライズされたサービスを動かすために、エッジインテリジェンスにおいてますます採用されてきているため、LLMポストトレーニングフェーズの品質と効率は、制約のあるリソースのために重要になっている。
近年のFL PEFTと低レイテンシ推論の進歩により個々のタスク性能が向上したが、微調整と推論は依然として独立したワークロードとして扱われ、相互依存を克服し、冗長なデプロイメントと推論品質の向上が遅れている。
これらの制約に対処するため、我々は新しい共同実行フレームワークを導入し、共有エッジレプリカとモデルパラメータのFL PEFTと推論を統一するシステムであるCoLLMでインスタンス化する。
CoLLMは,(1)非マージ推論とシャドウアダプタ戦略によるリアルタイムモデルパラメータの再利用を可能にするレプリカ内モデル共有機構,(2)長期モデル品質向上と短期推論効率を協調的に最適化するために,微調整と推論のワークロードを適応的にバランスさせる2段階のレプリカ間調整アルゴリズムである。
多様なLLMと実世界のトレースの広範な評価は、CoLLMが最先端のLLMシステムより一貫して優れ、最大3倍高い出力を実現し、エッジインテリジェンスのためのシームレスなLLMポストトレーニングの実現の有効性を実証していることを示している。
関連論文リスト
- Rethinking Entropy Allocation in LLM-based ASR: Understanding the Dynamics between Speech Encoders and LLMs [17.167595029948576]
学習パラダイムが音声エンコーダとLLM間のエントロピー削減をどのように割り当てるかを特徴付けるための3つの指標を提案する。
本稿では,パラメータ効率とロバストネス幻覚を最適化した,能力境界認識に基づく多段階学習戦略を提案する。
マンダリンと英語のベンチマーク実験により,2.3Bパラメータのみを用いた最先端モデルとの競合性能が得られた。
論文 参考訳(メタデータ) (2026-04-09T09:07:52Z) - AsynDBT: Asynchronous Distributed Bilevel Tuning for efficient In-Context Learning with Large Language Models [4.4866154758274375]
In-context Learning (ICL) は、LLMが入力内で提供される例を使って新しいタスクに適応できる有望なパラダイムとして登場した。
ICLを組み込んだ以前のFLアプローチは、重度のストラグラー問題と、異種非同一データに関連する課題に悩まされてきた。
本稿では,LLMからのフィードバックに基づいて,文脈内学習サンプルの最適化とフラグメントのプロンプトを行う非同期分散バイレベルチューニング(AsynDBT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-06T13:07:49Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - MEL: Multi-level Ensemble Learning for Resource-Constrained Environments [1.59297928921015]
我々は、弾力性のあるエッジ推論のための新しいフレームワーク、Mel(Multi-Level Ensemble Learning)を提案する。
MELは、複数のサーバが利用可能で、独立して障害下で、協調動作可能な複数の軽量バックアップモデルをトレーニングする。
視覚、言語、オーディオデータセットにわたる経験的評価は、MELが元のアーキテクチャに匹敵するパフォーマンスを提供することを示している。
論文 参考訳(メタデータ) (2025-06-25T02:33:57Z) - RLAE: Reinforcement Learning-Assisted Ensemble for LLMs [21.77261258691006]
大規模言語モデル(LLM)は、様々なモデルの多様な強みを効果的に組み合わせ、様々なタスクのパフォーマンスを高めるための有望なアプローチを提供する。
マルコフ決定プロセス(MDP)のレンズを通してアンサンブルを再構成する新しいフレームワークであるLLMのための強化学習支援アンサンブルを提案する。
提案手法では,入力コンテキストと中間生成状態の両方を考慮してアンサンブル重みを動的に調整するRLエージェントを提案する。
論文 参考訳(メタデータ) (2025-05-31T07:38:41Z) - LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding [4.759109475818876]
Implicit Neural Representations (INR)は、多様なデータドメインをまたいだタスクモデリングを統合するための強力なパラダイムであることが証明されている。
本稿では,メタラーニングによるマルチスケール情報をキャプチャする新しい高性能フレームワークLIFTを紹介する。
また、残差接続と表現頻度符号化を組み込んだLIFTの強化版であるReLIFTについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T17:00:58Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。