論文の概要: Eloquent: A More Robust Transmission Scheme for LLM Token Streaming
- arxiv url: http://arxiv.org/abs/2401.12961v2
- Date: Sun, 16 Jun 2024 17:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-19 06:54:55.193528
- Title: Eloquent: A More Robust Transmission Scheme for LLM Token Streaming
- Title(参考訳): Eloquent: LLMトークンストリーミングのためのロバストな送信方式
- Authors: Hanchen Li, Yuhan Liu, Yihua Cheng, Siddhant Ray, Kuntai Du, Junchen Jiang,
- Abstract要約: 現在のアプリケーションは不安定なネットワーク下でのストールの増加に悩まされていることを示す。
我々はEloquentを提案する。Eloquentは、新たに生成されたトークンに加えて、現在承認されていないトークンを次のパケットに配置する。
これにより、各パケットにはいくつかの新しいトークンが含まれており、その間、受信時に独立してレンダリングされる。
- 参考スコア(独自算出の注目度): 15.356378123001114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To render each generated token in real-time for users, the Large Language Model (LLM) server generates tokens one by one and streams each token (or group of a few tokens) through the network to the user right after generation, which we refer to as LLM token streaming. However, under unstable network conditions, the LLM token streaming experience could suffer greatly from stalls since one packet loss could block the rendering of later tokens even if the packets containing them arrive on time. With a measurement study, we show that current applications suffer from increased stalls under unstable networks. For this emerging token streaming problem in LLM Chatbots that differs from previous multimedia and text applications, we propose a novel transmission scheme, called Eloquent, which puts newly generated tokens as well as currently unacknowledged tokens in the next outgoing packet. This ensures that each packet contains some new tokens and, in the meantime, is independently rendered when received, avoiding the aforementioned stalls caused by missing packets. Through simulation under various networks, we show Eloquent reduces stall ratio (proportion of token rendering wait time) by 71.0% compared to the retransmission method commonly used by real chatbot applications and by 31.6% compared to the baseline packet duplication scheme. By tailoring Eloquent to fit the token-by-token generation of LLM, we enable the Chatbots to respond like an eloquent speaker for users to better enjoy pervasive AI.
- Abstract(参考訳): ユーザが生成したトークンをリアルタイムでレンダリングするために,Large Language Model (LLM) サーバはトークンをひとつずつ生成し,生成直後に各トークン(あるいはいくつかのトークンのグループ)をネットワーク経由でユーザへストリームする。
しかし、不安定なネットワーク条件下では、LCMトークンのストリーミング体験は、1つのパケットの損失によって、もしそれらを含むパケットが時間通りに到着しても、後続のトークンのレンダリングをブロックできるため、ストールに悩まされる可能性がある。
本研究では, 不安定ネットワーク下でのストールの増加に悩まされている現状のアプリケーションについて検討した。
従来のマルチメディアやテキストアプリケーションと異なるLCMチャットボットにおけるトークンストリーミング問題に対して,新たに生成されたトークンと,現在未承認のトークンを次のパケットに配置するEloquentと呼ばれる新しい送信方式を提案する。
これにより、各パケットがいくつかの新しいトークンを含むことが保証され、一方、受信時に独立してレンダリングされる。
各種ネットワーク下でのシミュレーションにより,実チャットボットアプリケーションで一般的に使用されている再送信方式と比較して,Eloquentはストール率(トークンレンダリング待ち時間の割合)を71.0%削減し,ベースラインパケット複製方式に比べて31.6%削減した。
トークン・バイ・トークン世代のLSMに適合するようにEloquentを調整することで、Chatbotsを雄弁なスピーカーのように反応させることで、ユーザーが広くAIを楽しむことができる。
関連論文リスト
- LingoLoop Attack: Trapping MLLMs via Linguistic Context and State Entrapment into Endless Loops [22.036024483035465]
我々はLingoLoopを提案する。これはMLLMに過剰に冗長なシーケンスを生成するよう誘導する攻撃である。
トークンのPOSタグがEOSトークンを生成する可能性に強く影響していることが判明した。
隠れ状態の規模を制限し、永続的なループを生成するようモデルに促すジェネレーティブ・パス・プルーニング機構を導入する。
論文 参考訳(メタデータ) (2025-06-17T13:14:55Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Spill The Beans: Exploiting CPU Cache Side-Channels to Leak Tokens from Large Language Models [4.5987419425784966]
LLM(Large Language Models)によって生成されるトークンをリークするキャッシュサイドチャネルの新しいアプリケーションであるSpill The Beansを紹介します。
重要な課題はLLMの大規模化であり、計算集約的な操作の性質上、キャッシュからベクターを埋め込むことがすぐになくなる。
より多くのトークンの監視は語彙リークの可能性を増大させるが、消去によってキャッシュがヒットする可能性を高める。
LLMの展開には新たな脆弱性があり、高度なモデルでさえ従来のサイドチャネル攻撃の影響を受けやすいことが判明した。
論文 参考訳(メタデータ) (2025-05-01T19:18:56Z) - Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Token Prepending: A Training-Free Approach for Eliciting Better Sentence Embeddings from LLMs [10.213016513358598]
Token Prepending (TP) 技術は、各レイヤのデコードされた文を次のレイヤの入力に埋め込む。
TP技術はプラグアンドプレイおよびトレーニングフリー技術であり、即時ベースの文埋め込み手法とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-16T08:42:00Z) - ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis [66.60176118564489]
自動回帰変換器(NAT)は,数ステップで高品質な画像を生成することができることを示す。
我々は,NATに固有の重要な相互作用を明示的に促進するNATモデルであるEfficientNAT (ENAT)を提案する。
ENATは特に計算コストを大幅に削減してNATの性能を向上させる。
論文 参考訳(メタデータ) (2024-11-11T13:05:39Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Loss Masking Is Not Needed in Decoder-only Transformer for
Discrete-token-based ASR [58.136778669618096]
統一音声テキストモデルは、様々な音声タスクにおいて顕著な性能を達成した。
テキストに似た自己回帰的な方法で音声トークンをモデル化することを提案する。
入力音声トークンに従来のクロスエントロピー損失を適用することは、ASRの性能を常に向上させるものではない。
論文 参考訳(メタデータ) (2023-11-08T08:45:14Z) - Compound Tokens: Channel Fusion for Vision-Language Representation
Learning [36.19486792701684]
質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。
チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。
オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
論文 参考訳(メタデータ) (2022-12-02T21:09:52Z) - Protum: A New Method For Prompt Tuning Based on "[MASK]" [12.057434751507552]
本稿では,[textbfMASK](textbfProtum)法に基づく新しいtextbfPrompt textbfTuningを提案する。
textbfProtumは、時間消費の少ない継続的な事前トレーニングの後、微調整よりもはるかに優れたパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-01-28T13:34:30Z) - Token Manipulation Generative Adversarial Network for Text Generation [0.0]
我々は条件付きテキスト生成問題を,make-a-blank と fill-in-blank の2つのタスクに分解し,前者を拡張してより複雑なトークン操作を行う。
提案モデルでは,限界に対処するだけでなく,品質や多様性の面で性能を損なうことなく良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-05-06T13:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。