論文の概要: Communication-Efficient Hybrid Language Model via Uncertainty-Aware Opportunistic and Compressed Transmission
- arxiv url: http://arxiv.org/abs/2505.11788v1
- Date: Sat, 17 May 2025 02:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.846618
- Title: Communication-Efficient Hybrid Language Model via Uncertainty-Aware Opportunistic and Compressed Transmission
- Title(参考訳): 不確実性を考慮した通信効率の良いハイブリッド言語モデル
- Authors: Seungeun Oh, Jinhyuk Kim, Jihong Park, Seung-Woo Ko, Jinho Choi, Tony Q. S. Quek, Seong-Lyun Kim,
- Abstract要約: ハイブリッド言語モデル(HLM)は、遠隔大言語モデル(LLM)によって検証され、修正されるドラフトトークンを生成する。
通信効率と不確実性を考慮したHLM(CU-HLM)を提案する。
CU-HLMは、74.8%のトランスミッションを97.4%の語彙圧縮でスキップし、97.4%の精度を維持しながら、最大206$times$高いトークンスループットを達成することを示す。
- 参考スコア(独自算出の注目度): 65.17811759381978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To support emerging language-based applications using dispersed and heterogeneous computing resources, the hybrid language model (HLM) offers a promising architecture, where an on-device small language model (SLM) generates draft tokens that are validated and corrected by a remote large language model (LLM). However, the original HLM suffers from substantial communication overhead, as the LLM requires the SLM to upload the full vocabulary distribution for each token. Moreover, both communication and computation resources are wasted when the LLM validates tokens that are highly likely to be accepted. To overcome these limitations, we propose communication-efficient and uncertainty-aware HLM (CU-HLM). In CU-HLM, the SLM transmits truncated vocabulary distributions only when its output uncertainty is high. We validate the feasibility of this opportunistic transmission by discovering a strong correlation between SLM's uncertainty and LLM's rejection probability. Furthermore, we theoretically derive optimal uncertainty thresholds and optimal vocabulary truncation strategies. Simulation results show that, compared to standard HLM, CU-HLM achieves up to 206$\times$ higher token throughput by skipping 74.8% transmissions with 97.4% vocabulary compression, while maintaining 97.4% accuracy.
- Abstract(参考訳): 分散コンピューティングリソースとヘテロジニアスコンピューティングリソースを使用した新興言語ベースのアプリケーションをサポートするために、ハイブリッド言語モデル(HLM)は、デバイス上の小さな言語モデル(SLM)が、リモートの大規模言語モデル(LLM)によって検証され修正されるドラフトトークンを生成する、有望なアーキテクチャを提供する。
しかし、オリジナルのHLMは、各トークンの完全な語彙分布をSLMにアップロードする必要があるため、かなりの通信オーバーヘッドに悩まされている。
さらに、LLMが受け入れられそうなトークンを検証すると、通信リソースと計算リソースの両方が無駄になる。
これらの制約を克服するために,通信効率と不確実性を考慮したHLM(CU-HLM)を提案する。
CU-HLMでは、SLMはその出力不確実性が高い場合にのみ、切り離された語彙分布を送信する。
我々は,SLMの不確かさとLLMの拒絶確率との間に強い相関関係を見出すことにより,この機会伝達の実現可能性を検証する。
さらに、理論的には最適な不確実性しきい値と最適な語彙切り出し戦略を導出する。
シミュレーションの結果、CU-HLMは標準的なHLMと比較して、74.8%のトランスミッションを97.4%の語彙圧縮でスキップし、97.4%の精度を維持しながら206$\times$高いトークンスループットを達成することがわかった。
関連論文リスト
- Uncertainty-Aware Hybrid Inference with On-Device Small and Remote Large Language Models [49.48313161005423]
ハイブリッド言語モデル(HLM)アーキテクチャは、モバイル端末で動作する小さな言語モデル(SLM)と、無線ネットワークの基地局(BS)にホストされる大きな言語モデル(LLM)を統合する。
HLMトークン生成プロセスは、投機的推論の原則に従っている: SLMの語彙分布はLSMにアップロードされ、LPMによって再サンプリングされる。
本研究では,不確実性を考慮したHLM (Uncertainty-aware opportunistic HLM) という新しいHLM構造を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:08:18Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。