論文の概要: Chatterbox: Robust Transport for LLM Token Streaming under Unstable
Network
- arxiv url: http://arxiv.org/abs/2401.12961v1
- Date: Tue, 23 Jan 2024 18:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 14:45:08.823511
- Title: Chatterbox: Robust Transport for LLM Token Streaming under Unstable
Network
- Title(参考訳): Chatterbox: 不安定ネットワーク下でのLLMトークンストリーミングのためのロバストトランスポート
- Authors: Hanchen Li, Yuhan Liu, Yihua Cheng, Siddhant Ray, Kuntai Du, Junchen
Jiang
- Abstract要約: 不安定なネットワーク条件下では、LLMトークンストリーミングエクスペリエンスは、ストールに大きく悩まされる可能性がある。
ChatGPT、Claude、Bardといった現在のアプリケーションは、不安定なネットワーク下でのストールの増加に悩まされている。
本稿では,Chatterboxと呼ばれる新しいトランスポート層方式を提案する。
- 参考スコア(独自算出の注目度): 16.271861217307222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To render each generated token in real time, the LLM server generates
response tokens one by one and streams each generated token (or group of a few
tokens) through the network to the user right after it is generated, which we
refer to as LLM token streaming. However, under unstable network conditions,
the LLM token streaming experience could suffer greatly from stalls since one
packet loss could block the rendering of tokens contained in subsequent packets
even if they arrive on time. With a real-world measurement study, we show that
current applications including ChatGPT, Claude, and Bard all suffer from
increased stall under unstable network.
For this emerging token streaming problem in LLM Chatbots, we propose a novel
transport layer scheme, called Chatterbox, which puts new generated tokens as
well as currently unacknowledged tokens in the next outgoing packet. This
ensures that each packet contains some new tokens and can be independently
rendered when received, thus avoiding aforementioned stalls caused by missing
packets. Through simulation under various network conditions, we show
Chatterbox reduces stall ratio (proportion of token rendering wait time) by
71.0% compared to the token streaming method commonly used by real chatbot
applications and by 31.6% compared to a custom packet duplication scheme. By
tailoring Chatterbox to fit the token-by-token generation of LLM, we enable the
Chatbots to respond like an eloquent speaker for users to better enjoy
pervasive AI.
- Abstract(参考訳): LLMサーバは、各生成されたトークンをリアルタイムでレンダリングするために、1個ずつ応答トークンを生成し、生成されたトークン(または数個のトークンのグループ)をネットワーク経由でユーザへストリームする。
しかし、不安定なネットワーク条件下では、LCMトークンのストリーミング体験は、1つのパケットの損失によって、時間が経過しても後続のパケットに含まれるトークンのレンダリングがブロックされるため、ストールに大きく悩まされる可能性がある。
実世界の計測結果から,chatgpt,claude,bardなどのアプリケーションでは,不安定なネットワーク下でストールが増加することが判明した。
llmチャットボットにおける新たなトークンストリーミング問題に対して,我々はchatterboxと呼ばれる新しいトランスポート層スキームを提案する。
これにより、各パケットにはいくつかの新しいトークンが含まれており、受信時に独立してレンダリングできることが保証される。
各種ネットワーク条件下でのシミュレーションにより,Chatterboxは,実際のチャットボットアプリケーションで一般的に使用されているトークンストリーミング方式と比較して,ストール率(トークンレンダリング待ち時間の割合)を71.0%,カスタムパケット複製方式に比べて31.6%削減することを示した。
トークン・バイ・トークン世代のLSMに適合するようにChatterboxを調整することで、Chatbotsは雄弁なスピーカーのように反応し、ユーザーがより広くAIを楽しめるようにします。
関連論文リスト
- ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis [66.60176118564489]
自動回帰変換器(NAT)は,数ステップで高品質な画像を生成することができることを示す。
我々は,NATに固有の重要な相互作用を明示的に促進するNATモデルであるEfficientNAT (ENAT)を提案する。
ENATは特に計算コストを大幅に削減してNATの性能を向上させる。
論文 参考訳(メタデータ) (2024-11-11T13:05:39Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Loss Masking Is Not Needed in Decoder-only Transformer for
Discrete-token-based ASR [58.136778669618096]
統一音声テキストモデルは、様々な音声タスクにおいて顕著な性能を達成した。
テキストに似た自己回帰的な方法で音声トークンをモデル化することを提案する。
入力音声トークンに従来のクロスエントロピー損失を適用することは、ASRの性能を常に向上させるものではない。
論文 参考訳(メタデータ) (2023-11-08T08:45:14Z) - Compound Tokens: Channel Fusion for Vision-Language Representation
Learning [36.19486792701684]
質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。
チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。
オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
論文 参考訳(メタデータ) (2022-12-02T21:09:52Z) - Protum: A New Method For Prompt Tuning Based on "[MASK]" [12.057434751507552]
本稿では,[textbfMASK](textbfProtum)法に基づく新しいtextbfPrompt textbfTuningを提案する。
textbfProtumは、時間消費の少ない継続的な事前トレーニングの後、微調整よりもはるかに優れたパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-01-28T13:34:30Z) - Token Manipulation Generative Adversarial Network for Text Generation [0.0]
我々は条件付きテキスト生成問題を,make-a-blank と fill-in-blank の2つのタスクに分解し,前者を拡張してより複雑なトークン操作を行う。
提案モデルでは,限界に対処するだけでなく,品質や多様性の面で性能を損なうことなく良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-05-06T13:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。