論文の概要: Eloquent: A More Robust Transmission Scheme for LLM Token Streaming
- arxiv url: http://arxiv.org/abs/2401.12961v2
- Date: Sun, 16 Jun 2024 17:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 06:54:55.193528
- Title: Eloquent: A More Robust Transmission Scheme for LLM Token Streaming
- Title(参考訳): Eloquent: LLMトークンストリーミングのためのロバストな送信方式
- Authors: Hanchen Li, Yuhan Liu, Yihua Cheng, Siddhant Ray, Kuntai Du, Junchen Jiang,
- Abstract要約: 現在のアプリケーションは不安定なネットワーク下でのストールの増加に悩まされていることを示す。
我々はEloquentを提案する。Eloquentは、新たに生成されたトークンに加えて、現在承認されていないトークンを次のパケットに配置する。
これにより、各パケットにはいくつかの新しいトークンが含まれており、その間、受信時に独立してレンダリングされる。
- 参考スコア(独自算出の注目度): 15.356378123001114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To render each generated token in real-time for users, the Large Language Model (LLM) server generates tokens one by one and streams each token (or group of a few tokens) through the network to the user right after generation, which we refer to as LLM token streaming. However, under unstable network conditions, the LLM token streaming experience could suffer greatly from stalls since one packet loss could block the rendering of later tokens even if the packets containing them arrive on time. With a measurement study, we show that current applications suffer from increased stalls under unstable networks. For this emerging token streaming problem in LLM Chatbots that differs from previous multimedia and text applications, we propose a novel transmission scheme, called Eloquent, which puts newly generated tokens as well as currently unacknowledged tokens in the next outgoing packet. This ensures that each packet contains some new tokens and, in the meantime, is independently rendered when received, avoiding the aforementioned stalls caused by missing packets. Through simulation under various networks, we show Eloquent reduces stall ratio (proportion of token rendering wait time) by 71.0% compared to the retransmission method commonly used by real chatbot applications and by 31.6% compared to the baseline packet duplication scheme. By tailoring Eloquent to fit the token-by-token generation of LLM, we enable the Chatbots to respond like an eloquent speaker for users to better enjoy pervasive AI.
- Abstract(参考訳): ユーザが生成したトークンをリアルタイムでレンダリングするために,Large Language Model (LLM) サーバはトークンをひとつずつ生成し,生成直後に各トークン(あるいはいくつかのトークンのグループ)をネットワーク経由でユーザへストリームする。
しかし、不安定なネットワーク条件下では、LCMトークンのストリーミング体験は、1つのパケットの損失によって、もしそれらを含むパケットが時間通りに到着しても、後続のトークンのレンダリングをブロックできるため、ストールに悩まされる可能性がある。
本研究では, 不安定ネットワーク下でのストールの増加に悩まされている現状のアプリケーションについて検討した。
従来のマルチメディアやテキストアプリケーションと異なるLCMチャットボットにおけるトークンストリーミング問題に対して,新たに生成されたトークンと,現在未承認のトークンを次のパケットに配置するEloquentと呼ばれる新しい送信方式を提案する。
これにより、各パケットがいくつかの新しいトークンを含むことが保証され、一方、受信時に独立してレンダリングされる。
各種ネットワーク下でのシミュレーションにより,実チャットボットアプリケーションで一般的に使用されている再送信方式と比較して,Eloquentはストール率(トークンレンダリング待ち時間の割合)を71.0%削減し,ベースラインパケット複製方式に比べて31.6%削減した。
トークン・バイ・トークン世代のLSMに適合するようにEloquentを調整することで、Chatbotsを雄弁なスピーカーのように反応させることで、ユーザーが広くAIを楽しむことができる。
関連論文リスト
- ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis [66.60176118564489]
自動回帰変換器(NAT)は,数ステップで高品質な画像を生成することができることを示す。
我々は,NATに固有の重要な相互作用を明示的に促進するNATモデルであるEfficientNAT (ENAT)を提案する。
ENATは特に計算コストを大幅に削減してNATの性能を向上させる。
論文 参考訳(メタデータ) (2024-11-11T13:05:39Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Loss Masking Is Not Needed in Decoder-only Transformer for
Discrete-token-based ASR [58.136778669618096]
統一音声テキストモデルは、様々な音声タスクにおいて顕著な性能を達成した。
テキストに似た自己回帰的な方法で音声トークンをモデル化することを提案する。
入力音声トークンに従来のクロスエントロピー損失を適用することは、ASRの性能を常に向上させるものではない。
論文 参考訳(メタデータ) (2023-11-08T08:45:14Z) - Compound Tokens: Channel Fusion for Vision-Language Representation
Learning [36.19486792701684]
質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。
チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。
オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
論文 参考訳(メタデータ) (2022-12-02T21:09:52Z) - Protum: A New Method For Prompt Tuning Based on "[MASK]" [12.057434751507552]
本稿では,[textbfMASK](textbfProtum)法に基づく新しいtextbfPrompt textbfTuningを提案する。
textbfProtumは、時間消費の少ない継続的な事前トレーニングの後、微調整よりもはるかに優れたパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-01-28T13:34:30Z) - Token Manipulation Generative Adversarial Network for Text Generation [0.0]
我々は条件付きテキスト生成問題を,make-a-blank と fill-in-blank の2つのタスクに分解し,前者を拡張してより複雑なトークン操作を行う。
提案モデルでは,限界に対処するだけでなく,品質や多様性の面で性能を損なうことなく良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-05-06T13:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。