論文の概要: Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving
- arxiv url: http://arxiv.org/abs/2504.17999v1
- Date: Fri, 25 Apr 2025 00:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.604339
- Title: Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving
- Title(参考訳): ストリーミング, 高速, スロー: 効率的なLLM学習のための認知的負荷認識ストリーミング
- Authors: Chang Xiao, Brenda Yang,
- Abstract要約: 可読性よりも高速なコンテンツのストリーミングは不要なように見えるため、計算リソースの浪費や、他のユーザへの潜在的な遅延が発生する。
本稿では,LLMストリーミング出力のパッシングを動的にリアルタイムに調整する適応型ストリーミング手法を提案する。
提案手法では,ストリーミングコンテンツに関連する認知的負荷を推定し,複雑なセグメントや情報豊富なセグメントでストリームを戦略的に遅くすることで,他のユーザに対して計算リソースを解放する。
- 参考スコア(独自算出の注目度): 10.632179121247466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative conversational interfaces powered by large language models (LLMs) typically stream output token-by-token at a rate determined by computational budget, often neglecting actual human reading speeds and the cognitive load associated with the content. This mismatch frequently leads to inefficient use of computational resources. For example, in cloud-based services, streaming content faster than users can read appears unnecessary, resulting in wasted computational resources and potential delays for other users, particularly during peak usage periods. To address this issue, we propose an adaptive streaming method that dynamically adjusts the pacing of LLM streaming output in real-time based on inferred cognitive load. Our approach estimates the cognitive load associated with streaming content and strategically slows down the stream during complex or information-rich segments, thereby freeing computational resources for other users. Our statistical analysis of computational savings, combined with crowdsourced user studies, provides insights into the trade-offs between service efficiency and user satisfaction, demonstrating that our method can significantly reduce computational consumption up to 16.8\%. This context-aware computational resource management strategy presents a practical framework for enhancing system efficiency in cloud-based conversational AI interfaces without compromising user experience.
- Abstract(参考訳): 大規模言語モデル(LLM)をベースとした生成的対話インタフェースは、通常、計算予算によって決定される速度で出力トークンをストリーミングし、実際の人間の読み取り速度とコンテンツに関連する認知的負荷を無視する。
このミスマッチは、しばしば計算資源の非効率的な使用につながる。
例えば、クラウドベースのサービスでは、ユーザよりも高速なストリーミングコンテンツは不要に見え、結果として計算リソースの浪費と、特にピーク使用期間中に、他のユーザの潜在的な遅延が発生します。
この問題に対処するために,推定認知負荷に基づいてLLMストリーミング出力のペアリングを動的に動的に調整する適応ストリーミング手法を提案する。
提案手法では,ストリーミングコンテンツに関連する認知的負荷を推定し,複雑なセグメントや情報豊富なセグメントでストリームを戦略的に遅くすることで,他のユーザに対して計算リソースを解放する。
クラウドソーシングされたユーザスタディと組み合わせた計算貯蓄の統計分析により,サービス効率とユーザ満足度とのトレードオフに関する知見が得られ,計算消費量を最大16.8 %まで大幅に削減できることを示す。
このコンテキスト対応の計算資源管理戦略は,ユーザエクスペリエンスを損なうことなく,クラウドベースの対話型AIインターフェースにおけるシステム効率を向上させるための実践的なフレームワークを提供する。
関連論文リスト
- Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Efficiently Serving LLM Reasoning Programs with Certaindex [4.681117143870077]
Dynasorは、大規模言語モデル(LLM)の推論時間計算を最適化するシステムである。
従来のエンジンとは異なり、Dynasorは推論クエリ内で要求を追跡し、スケジュールする。
バッチ処理で最大50%削減され、クエリレートが3.3倍、オンラインサービスで4.7倍のレイテンシSLOが持続する。
論文 参考訳(メタデータ) (2024-12-30T14:57:53Z) - Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z) - Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。
LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。
LASERは公開データセットの3~5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文 参考訳(メタデータ) (2024-08-11T02:31:13Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Learn to Compress (LtC): Efficient Learning-based Streaming Video
Analytics [3.2872586139884623]
LtCは、ビデオソースと分析サーバの協調フレームワークで、分析パイプライン内のビデオストリームの削減を効率的に学習する。
LtCは28~35%の帯域幅を使用でき、最近公開されたアートストリーミングフレームワークと比較して最大45%のレスポンス遅延がある。
論文 参考訳(メタデータ) (2023-07-22T21:36:03Z) - Fast Context Adaptation in Cost-Aware Continual Learning [10.515324071327903]
5GとBeyondネットワークは、より複雑な学習エージェントを必要とし、学習プロセス自体が、コミュニケーションや計算リソースのためにユーザと競合することになるかもしれない。
一方、学習プロセスは、効率的な戦略に迅速に収束するためのリソースを必要とし、一方、学習プロセスは、ユーザのデータプレーンから可能な限り少ないリソースを取らずに、ユーザのリソースを損なわないように、効率的でなければならない。
本稿では,データプレーンに割り当てられたリソースと学習用に確保されたリソースのバランスをとるための動的戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T17:46:48Z) - Learnability with Time-Sharing Computational Resource Concerns [65.268245109828]
本稿では,学習理論における計算資源の影響を考慮した理論的枠組みを提案する。
このフレームワークは、入ってくるデータストリームが潜在的に無限であるようなストリーム学習に自然に適用できる。
これはまた、インテリジェントなスーパーコンピュータオペレーティングシステムの設計に対する理論的視点を提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-03T15:54:23Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Lightweight Event-based Optical Flow Estimation via Iterative Deblurring [22.949700247611695]
相関ボリュームを使わずにイベントトレースからのフローを直接推定する,軽量かつ高性能なイベントベース光フローネットワークIDNetを導入する。
当社のトップパフォーマンスIDモデルは、DSECベンチマークで新たな最先端技術を設定しています。
NVidia Jetson Xavier NXでは,パラメータを80%削減し,メモリフットプリントを20倍削減し,40%高速動作を実現しています。
論文 参考訳(メタデータ) (2022-11-24T17:26:27Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。
本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文 参考訳(メタデータ) (2021-07-19T02:55:48Z) - Faster than LASER -- Towards Stream Reasoning with Deep Neural Networks [0.6649973446180738]
Stream Reasonerは、推論とストリーム処理のギャップを埋めることを目指している。
LASERはデータストリーム上の複雑な推論を解析・実行するために設計されたストリーム推論器である。
本稿では、時系列予測や分類に特に適していることを示す畳み込みニューラルネットワークと反復ニューラルネットワークが、LASERによる推論を近似するために訓練可能であるかを検討する。
論文 参考訳(メタデータ) (2021-06-15T22:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。