論文の概要: Chatterbox: Robust Transport for LLM Token Streaming under Unstable
Network
- arxiv url: http://arxiv.org/abs/2401.12961v1
- Date: Tue, 23 Jan 2024 18:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 14:45:08.823511
- Title: Chatterbox: Robust Transport for LLM Token Streaming under Unstable
Network
- Title(参考訳): Chatterbox: 不安定ネットワーク下でのLLMトークンストリーミングのためのロバストトランスポート
- Authors: Hanchen Li, Yuhan Liu, Yihua Cheng, Siddhant Ray, Kuntai Du, Junchen
Jiang
- Abstract要約: 不安定なネットワーク条件下では、LLMトークンストリーミングエクスペリエンスは、ストールに大きく悩まされる可能性がある。
ChatGPT、Claude、Bardといった現在のアプリケーションは、不安定なネットワーク下でのストールの増加に悩まされている。
本稿では,Chatterboxと呼ばれる新しいトランスポート層方式を提案する。
- 参考スコア(独自算出の注目度): 16.271861217307222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To render each generated token in real time, the LLM server generates
response tokens one by one and streams each generated token (or group of a few
tokens) through the network to the user right after it is generated, which we
refer to as LLM token streaming. However, under unstable network conditions,
the LLM token streaming experience could suffer greatly from stalls since one
packet loss could block the rendering of tokens contained in subsequent packets
even if they arrive on time. With a real-world measurement study, we show that
current applications including ChatGPT, Claude, and Bard all suffer from
increased stall under unstable network.
For this emerging token streaming problem in LLM Chatbots, we propose a novel
transport layer scheme, called Chatterbox, which puts new generated tokens as
well as currently unacknowledged tokens in the next outgoing packet. This
ensures that each packet contains some new tokens and can be independently
rendered when received, thus avoiding aforementioned stalls caused by missing
packets. Through simulation under various network conditions, we show
Chatterbox reduces stall ratio (proportion of token rendering wait time) by
71.0% compared to the token streaming method commonly used by real chatbot
applications and by 31.6% compared to a custom packet duplication scheme. By
tailoring Chatterbox to fit the token-by-token generation of LLM, we enable the
Chatbots to respond like an eloquent speaker for users to better enjoy
pervasive AI.
- Abstract(参考訳): LLMサーバは、各生成されたトークンをリアルタイムでレンダリングするために、1個ずつ応答トークンを生成し、生成されたトークン(または数個のトークンのグループ)をネットワーク経由でユーザへストリームする。
しかし、不安定なネットワーク条件下では、LCMトークンのストリーミング体験は、1つのパケットの損失によって、時間が経過しても後続のパケットに含まれるトークンのレンダリングがブロックされるため、ストールに大きく悩まされる可能性がある。
実世界の計測結果から,chatgpt,claude,bardなどのアプリケーションでは,不安定なネットワーク下でストールが増加することが判明した。
llmチャットボットにおける新たなトークンストリーミング問題に対して,我々はchatterboxと呼ばれる新しいトランスポート層スキームを提案する。
これにより、各パケットにはいくつかの新しいトークンが含まれており、受信時に独立してレンダリングできることが保証される。
各種ネットワーク条件下でのシミュレーションにより,Chatterboxは,実際のチャットボットアプリケーションで一般的に使用されているトークンストリーミング方式と比較して,ストール率(トークンレンダリング待ち時間の割合)を71.0%,カスタムパケット複製方式に比べて31.6%削減することを示した。
トークン・バイ・トークン世代のLSMに適合するようにChatterboxを調整することで、Chatbotsは雄弁なスピーカーのように反応し、ユーザーがより広くAIを楽しめるようにします。
関連論文リスト
- Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Loss Masking Is Not Needed in Decoder-only Transformer for
Discrete-token-based ASR [58.136778669618096]
統一音声テキストモデルは、様々な音声タスクにおいて顕著な性能を達成した。
テキストに似た自己回帰的な方法で音声トークンをモデル化することを提案する。
入力音声トークンに従来のクロスエントロピー損失を適用することは、ASRの性能を常に向上させるものではない。
論文 参考訳(メタデータ) (2023-11-08T08:45:14Z) - TLM: Token-Level Masking for Transformers [17.739590600228393]
オーバーフィッティングを減らすために,トークンレベルに基づく新たな正規化手法を提案する。
具体的には,トランスフォーマーが自己注意のつながりを規則化するための新しいTLMトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-10-28T15:42:47Z) - Token Sparsification for Faster Medical Image Segmentation [37.25161294917211]
セグメント化をスパース符号化 ->トークン補完 -> 密度復号化(SCD)パイプラインとして再構成する。
STPは軽量なサブネットワークで重要度を予測し、トップKトークンをサンプリングする。
MTAはスパース出力トークンとプルーニングされた多層中間トークンの両方を組み立てることで、完全なトークンシーケンスを復元する。
論文 参考訳(メタデータ) (2023-03-11T23:59:13Z) - Compound Tokens: Channel Fusion for Vision-Language Representation
Learning [36.19486792701684]
質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。
チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。
オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
論文 参考訳(メタデータ) (2022-12-02T21:09:52Z) - FCM: Forgetful Causal Masking Makes Causal Language Models Better
Zero-Shot Learners [139.6321017962092]
本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。
我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。
実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
論文 参考訳(メタデータ) (2022-10-24T17:46:57Z) - SWAT: Spatial Structure Within and Among Tokens [53.525469741515884]
我々は,トークン化時に空間構造が保存される場合,モデルが顕著な利得が得られることを論じる。
本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:38Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - Disentangling Online Chats with DAG-Structured LSTMs [55.33014148383343]
DAG-LSTMはTree-LSTMの一般化であり、間接的な非循環的依存関係を処理できる。
提案する新モデルでは,リプライ・トゥ・リレーション(Repend-to-Relation)を回復する作業において,アート・ステータスの状態を達成できることが示される。
論文 参考訳(メタデータ) (2021-06-16T18:00:00Z) - Token Manipulation Generative Adversarial Network for Text Generation [0.0]
我々は条件付きテキスト生成問題を,make-a-blank と fill-in-blank の2つのタスクに分解し,前者を拡張してより複雑なトークン操作を行う。
提案モデルでは,限界に対処するだけでなく,品質や多様性の面で性能を損なうことなく良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-05-06T13:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。