Fugu-MT 論文翻訳(概要): Chatterbox: Robust Transport for LLM Token Streaming under Unstable Network

論文の概要: Chatterbox: Robust Transport for LLM Token Streaming under Unstable Network

arxiv url: http://arxiv.org/abs/2401.12961v1
Date: Tue, 23 Jan 2024 18:45:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 14:45:08.823511
Title: Chatterbox: Robust Transport for LLM Token Streaming under Unstable Network
Title（参考訳）: Chatterbox: 不安定ネットワーク下でのLLMトークンストリーミングのためのロバストトランスポート
Authors: Hanchen Li, Yuhan Liu, Yihua Cheng, Siddhant Ray, Kuntai Du, Junchen Jiang
Abstract要約: 不安定なネットワーク条件下では、LLMトークンストリーミングエクスペリエンスは、ストールに大きく悩まされる可能性がある。 ChatGPT、Claude、Bardといった現在のアプリケーションは、不安定なネットワーク下でのストールの増加に悩まされている。本稿では,Chatterboxと呼ばれる新しいトランスポート層方式を提案する。
参考スコア（独自算出の注目度）: 16.271861217307222
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To render each generated token in real time, the LLM server generates response tokens one by one and streams each generated token (or group of a few tokens) through the network to the user right after it is generated, which we refer to as LLM token streaming. However, under unstable network conditions, the LLM token streaming experience could suffer greatly from stalls since one packet loss could block the rendering of tokens contained in subsequent packets even if they arrive on time. With a real-world measurement study, we show that current applications including ChatGPT, Claude, and Bard all suffer from increased stall under unstable network. For this emerging token streaming problem in LLM Chatbots, we propose a novel transport layer scheme, called Chatterbox, which puts new generated tokens as well as currently unacknowledged tokens in the next outgoing packet. This ensures that each packet contains some new tokens and can be independently rendered when received, thus avoiding aforementioned stalls caused by missing packets. Through simulation under various network conditions, we show Chatterbox reduces stall ratio (proportion of token rendering wait time) by 71.0% compared to the token streaming method commonly used by real chatbot applications and by 31.6% compared to a custom packet duplication scheme. By tailoring Chatterbox to fit the token-by-token generation of LLM, we enable the Chatbots to respond like an eloquent speaker for users to better enjoy pervasive AI.
Abstract（参考訳）: LLMサーバは、各生成されたトークンをリアルタイムでレンダリングするために、1個ずつ応答トークンを生成し、生成されたトークン(または数個のトークンのグループ)をネットワーク経由でユーザへストリームする。しかし、不安定なネットワーク条件下では、LCMトークンのストリーミング体験は、1つのパケットの損失によって、時間が経過しても後続のパケットに含まれるトークンのレンダリングがブロックされるため、ストールに大きく悩まされる可能性がある。実世界の計測結果から,chatgpt,claude,bardなどのアプリケーションでは,不安定なネットワーク下でストールが増加することが判明した。 llmチャットボットにおける新たなトークンストリーミング問題に対して,我々はchatterboxと呼ばれる新しいトランスポート層スキームを提案する。これにより、各パケットにはいくつかの新しいトークンが含まれており、受信時に独立してレンダリングできることが保証される。各種ネットワーク条件下でのシミュレーションにより,Chatterboxは,実際のチャットボットアプリケーションで一般的に使用されているトークンストリーミング方式と比較して,ストール率(トークンレンダリング待ち時間の割合)を71.0%,カスタムパケット複製方式に比べて31.6%削減することを示した。トークン・バイ・トークン世代のLSMに適合するようにChatterboxを調整することで、Chatbotsは雄弁なスピーカーのように反応し、ユーザーがより広くAIを楽しめるようにします。

関連論文リスト

LingoLoop Attack: Trapping MLLMs via Linguistic Context and State Entrapment into Endless Loops [22.036024483035465]
我々はLingoLoopを提案する。これはMLLMに過剰に冗長なシーケンスを生成するよう誘導する攻撃である。トークンのPOSタグがEOSトークンを生成する可能性に強く影響していることが判明した。隠れ状態の規模を制限し、永続的なループを生成するようモデルに促すジェネレーティブ・パス・プルーニング機構を導入する。
論文参考訳（メタデータ） (2025-06-17T13:14:55Z)
Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
Spill The Beans: Exploiting CPU Cache Side-Channels to Leak Tokens from Large Language Models [4.5987419425784966]
LLM(Large Language Models)によって生成されるトークンをリークするキャッシュサイドチャネルの新しいアプリケーションであるSpill The Beansを紹介します。重要な課題はLLMの大規模化であり、計算集約的な操作の性質上、キャッシュからベクターを埋め込むことがすぐになくなる。より多くのトークンの監視は語彙リークの可能性を増大させるが、消去によってキャッシュがヒットする可能性を高める。 LLMの展開には新たな脆弱性があり、高度なモデルでさえ従来のサイドチャネル攻撃の影響を受けやすいことが判明した。
論文参考訳（メタデータ） (2025-05-01T19:18:56Z)
Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。 Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
Token Prepending: A Training-Free Approach for Eliciting Better Sentence Embeddings from LLMs [10.213016513358598]
Token Prepending (TP) 技術は、各レイヤのデコードされた文を次のレイヤの入力に埋め込む。 TP技術はプラグアンドプレイおよびトレーニングフリー技術であり、即時ベースの文埋め込み手法とシームレスに統合できる。
論文参考訳（メタデータ） (2024-12-16T08:42:00Z)
ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis [66.60176118564489]
自動回帰変換器(NAT)は,数ステップで高品質な画像を生成することができることを示す。我々は,NATに固有の重要な相互作用を明示的に促進するNATモデルであるEfficientNAT (ENAT)を提案する。 ENATは特に計算コストを大幅に削減してNATの性能を向上させる。
論文参考訳（メタデータ） (2024-11-11T13:05:39Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-10-10T20:54:15Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Loss Masking Is Not Needed in Decoder-only Transformer for Discrete-token-based ASR [58.136778669618096]
統一音声テキストモデルは、様々な音声タスクにおいて顕著な性能を達成した。テキストに似た自己回帰的な方法で音声トークンをモデル化することを提案する。入力音声トークンに従来のクロスエントロピー損失を適用することは、ASRの性能を常に向上させるものではない。
論文参考訳（メタデータ） (2023-11-08T08:45:14Z)
Compound Tokens: Channel Fusion for Vision-Language Representation Learning [36.19486792701684]
質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
論文参考訳（メタデータ） (2022-12-02T21:09:52Z)
Protum: A New Method For Prompt Tuning Based on "[MASK]" [12.057434751507552]
本稿では,[textbfMASK](textbfProtum)法に基づく新しいtextbfPrompt textbfTuningを提案する。 textbfProtumは、時間消費の少ない継続的な事前トレーニングの後、微調整よりもはるかに優れたパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2022-01-28T13:34:30Z)
Token Manipulation Generative Adversarial Network for Text Generation [0.0]
我々は条件付きテキスト生成問題を,make-a-blank と fill-in-blank の2つのタスクに分解し,前者を拡張してより複雑なトークン操作を行う。提案モデルでは,限界に対処するだけでなく,品質や多様性の面で性能を損なうことなく良好な結果が得られることを示す。
論文参考訳（メタデータ） (2020-05-06T13:10:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。