論文の概要: Communication-Efficient Hybrid Language Model via Uncertainty-Aware Opportunistic and Compressed Transmission
- arxiv url: http://arxiv.org/abs/2505.11788v1
- Date: Sat, 17 May 2025 02:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.846618
- Title: Communication-Efficient Hybrid Language Model via Uncertainty-Aware Opportunistic and Compressed Transmission
- Title(参考訳): 不確実性を考慮した通信効率の良いハイブリッド言語モデル
- Authors: Seungeun Oh, Jinhyuk Kim, Jihong Park, Seung-Woo Ko, Jinho Choi, Tony Q. S. Quek, Seong-Lyun Kim,
- Abstract要約: ハイブリッド言語モデル(HLM)は、遠隔大言語モデル(LLM)によって検証され、修正されるドラフトトークンを生成する。
通信効率と不確実性を考慮したHLM(CU-HLM)を提案する。
CU-HLMは、74.8%のトランスミッションを97.4%の語彙圧縮でスキップし、97.4%の精度を維持しながら、最大206$times$高いトークンスループットを達成することを示す。
- 参考スコア(独自算出の注目度): 65.17811759381978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To support emerging language-based applications using dispersed and heterogeneous computing resources, the hybrid language model (HLM) offers a promising architecture, where an on-device small language model (SLM) generates draft tokens that are validated and corrected by a remote large language model (LLM). However, the original HLM suffers from substantial communication overhead, as the LLM requires the SLM to upload the full vocabulary distribution for each token. Moreover, both communication and computation resources are wasted when the LLM validates tokens that are highly likely to be accepted. To overcome these limitations, we propose communication-efficient and uncertainty-aware HLM (CU-HLM). In CU-HLM, the SLM transmits truncated vocabulary distributions only when its output uncertainty is high. We validate the feasibility of this opportunistic transmission by discovering a strong correlation between SLM's uncertainty and LLM's rejection probability. Furthermore, we theoretically derive optimal uncertainty thresholds and optimal vocabulary truncation strategies. Simulation results show that, compared to standard HLM, CU-HLM achieves up to 206$\times$ higher token throughput by skipping 74.8% transmissions with 97.4% vocabulary compression, while maintaining 97.4% accuracy.
- Abstract(参考訳): 分散コンピューティングリソースとヘテロジニアスコンピューティングリソースを使用した新興言語ベースのアプリケーションをサポートするために、ハイブリッド言語モデル(HLM)は、デバイス上の小さな言語モデル(SLM)が、リモートの大規模言語モデル(LLM)によって検証され修正されるドラフトトークンを生成する、有望なアーキテクチャを提供する。
しかし、オリジナルのHLMは、各トークンの完全な語彙分布をSLMにアップロードする必要があるため、かなりの通信オーバーヘッドに悩まされている。
さらに、LLMが受け入れられそうなトークンを検証すると、通信リソースと計算リソースの両方が無駄になる。
これらの制約を克服するために,通信効率と不確実性を考慮したHLM(CU-HLM)を提案する。
CU-HLMでは、SLMはその出力不確実性が高い場合にのみ、切り離された語彙分布を送信する。
我々は,SLMの不確かさとLLMの拒絶確率との間に強い相関関係を見出すことにより,この機会伝達の実現可能性を検証する。
さらに、理論的には最適な不確実性しきい値と最適な語彙切り出し戦略を導出する。
シミュレーションの結果、CU-HLMは標準的なHLMと比較して、74.8%のトランスミッションを97.4%の語彙圧縮でスキップし、97.4%の精度を維持しながら206$\times$高いトークンスループットを達成することがわかった。
関連論文リスト
- Federated Learning-Enabled Hybrid Language Models for Communication-Efficient Token Transmission [87.68447072141402]
ハイブリッド言語モデル(HLM)は、エッジデバイス上でのSLM(Small Language Model)の低レイテンシ効率と、集中型サーバ上でのLLM(Large Language Model)の高精度を組み合わせたものである。
我々は、不確実性を考慮した推論とフェデレートラーニング(FL)を統合する通信効率の高いHLMフレームワークであるFedHLMを提案する。
論文 参考訳(メタデータ) (2025-06-30T02:56:11Z) - Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。
HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。
本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:08:18Z) - REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication [79.79948834910579]
自然言語(NL)は長年、人間の認知とコミュニケーションの主要なフォーマットであった。
本研究では,異なる文脈における非NLフォーマットの有用性を検討することで,NLのデフォルト利用に挑戦する。
論文 参考訳(メタデータ) (2024-02-28T16:07:54Z) - Language Models with Conformal Factuality Guarantees [44.767328168194815]
コンフォーマルな事実性(conformal factuality)は、言語モデル(LM)出力に対する高い確率の正確性を保証するフレームワークである。
言語モデルにおける共形予測は,高い確率精度保証を提供するバックオフアルゴリズムに対応することを示す。
論文 参考訳(メタデータ) (2024-02-15T18:31:53Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。