Fugu-MT 論文翻訳(概要): Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving

論文の概要: Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving

arxiv url: http://arxiv.org/abs/2504.17999v1
Date: Fri, 25 Apr 2025 00:58:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:53.604339
Title: Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving
Title（参考訳）: ストリーミング, 高速, スロー: 効率的なLLM学習のための認知的負荷認識ストリーミング
Authors: Chang Xiao, Brenda Yang,
Abstract要約: 可読性よりも高速なコンテンツのストリーミングは不要なように見えるため、計算リソースの浪費や、他のユーザへの潜在的な遅延が発生する。本稿では,LLMストリーミング出力のパッシングを動的にリアルタイムに調整する適応型ストリーミング手法を提案する。提案手法では,ストリーミングコンテンツに関連する認知的負荷を推定し,複雑なセグメントや情報豊富なセグメントでストリームを戦略的に遅くすることで,他のユーザに対して計算リソースを解放する。
参考スコア（独自算出の注目度）: 10.632179121247466
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative conversational interfaces powered by large language models (LLMs) typically stream output token-by-token at a rate determined by computational budget, often neglecting actual human reading speeds and the cognitive load associated with the content. This mismatch frequently leads to inefficient use of computational resources. For example, in cloud-based services, streaming content faster than users can read appears unnecessary, resulting in wasted computational resources and potential delays for other users, particularly during peak usage periods. To address this issue, we propose an adaptive streaming method that dynamically adjusts the pacing of LLM streaming output in real-time based on inferred cognitive load. Our approach estimates the cognitive load associated with streaming content and strategically slows down the stream during complex or information-rich segments, thereby freeing computational resources for other users. Our statistical analysis of computational savings, combined with crowdsourced user studies, provides insights into the trade-offs between service efficiency and user satisfaction, demonstrating that our method can significantly reduce computational consumption up to 16.8\%. This context-aware computational resource management strategy presents a practical framework for enhancing system efficiency in cloud-based conversational AI interfaces without compromising user experience.
Abstract（参考訳）: 大規模言語モデル(LLM)をベースとした生成的対話インタフェースは、通常、計算予算によって決定される速度で出力トークンをストリーミングし、実際の人間の読み取り速度とコンテンツに関連する認知的負荷を無視する。このミスマッチは、しばしば計算資源の非効率的な使用につながる。例えば、クラウドベースのサービスでは、ユーザよりも高速なストリーミングコンテンツは不要に見え、結果として計算リソースの浪費と、特にピーク使用期間中に、他のユーザの潜在的な遅延が発生します。この問題に対処するために,推定認知負荷に基づいてLLMストリーミング出力のペアリングを動的に動的に調整する適応ストリーミング手法を提案する。提案手法では,ストリーミングコンテンツに関連する認知的負荷を推定し,複雑なセグメントや情報豊富なセグメントでストリームを戦略的に遅くすることで,他のユーザに対して計算リソースを解放する。クラウドソーシングされたユーザスタディと組み合わせた計算貯蓄の統計分析により,サービス効率とユーザ満足度とのトレードオフに関する知見が得られ,計算消費量を最大16.8 %まで大幅に削減できることを示す。このコンテキスト対応の計算資源管理戦略は,ユーザエクスペリエンスを損なうことなく,クラウドベースの対話型AIインターフェースにおけるシステム効率を向上させるための実践的なフレームワークを提供する。

関連論文リスト

StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition [19.54521322177521]
超FPSストリーミングビデオ処理を実現するビデオLLMフレームワークStreamMind(A100では100fps)を紹介する。我々は「イベント付きLLM呼び出し」という新たな認知認知時間間パラダイムを提案する。 Ego4D と SoccerNet ストリーミングタスクの実験は、標準的なオフラインベンチマークと同様に、モデル能力とリアルタイム効率の両方における最先端のパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-03-08T13:44:38Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Efficiently Serving LLM Reasoning Programs with Certaindex [4.681117143870077]
Dynasorは、大規模言語モデル(LLM)の推論時間計算を最適化するシステムである。従来のエンジンとは異なり、Dynasorは推論クエリ内で要求を追跡し、スケジュールする。バッチ処理で最大50%削減され、クエリレートが3.3倍、オンラインサービスで4.7倍のレイテンシSLOが持続する。
論文参考訳（メタデータ） (2024-12-30T14:57:53Z)
Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文参考訳（メタデータ） (2024-09-18T06:27:26Z)
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。 LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。 LASERは公開データセットの3～5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
MemFlow: Optical Flow Estimation and Prediction with Memory [54.22820729477756]
本稿では,メモリを用いた光フロー推定と予測をリアルタイムに行うMemFlowを提案する。本手法では,メモリの読み出しと更新を行うモジュールをリアルタイムに収集する。われわれのアプローチは、過去の観測に基づいて、将来の光流の予測にシームレスに拡張する。
論文参考訳（メタデータ） (2024-04-07T04:56:58Z)
Breaking the Length Barrier: LLM-Enhanced CTR Prediction in Long Textual User Behaviors [25.086118164540974]
大型言語モデル(LLM)はクリックスルー率(CTR)予測の性能を向上させるために用いられる。ユーザシーケンスが長くなるにつれて、LLMの現在の効率は数十億のユーザやアイテムのトレーニングに不十分である。我々は,LLMに基づくCTRモデリングの効率を高めるために,行動集約階層(BAHE)を提案する。
論文参考訳（メタデータ） (2024-03-28T12:05:15Z)
Learn to Compress (LtC): Efficient Learning-based Streaming Video Analytics [3.2872586139884623]
LtCは、ビデオソースと分析サーバの協調フレームワークで、分析パイプライン内のビデオストリームの削減を効率的に学習する。 LtCは28～35%の帯域幅を使用でき、最近公開されたアートストリーミングフレームワークと比較して最大45%のレスポンス遅延がある。
論文参考訳（メタデータ） (2023-07-22T21:36:03Z)
Fast Context Adaptation in Cost-Aware Continual Learning [10.515324071327903]
5GとBeyondネットワークは、より複雑な学習エージェントを必要とし、学習プロセス自体が、コミュニケーションや計算リソースのためにユーザと競合することになるかもしれない。一方、学習プロセスは、効率的な戦略に迅速に収束するためのリソースを必要とし、一方、学習プロセスは、ユーザのデータプレーンから可能な限り少ないリソースを取らずに、ユーザのリソースを損なわないように、効率的でなければならない。本稿では,データプレーンに割り当てられたリソースと学習用に確保されたリソースのバランスをとるための動的戦略を提案する。
論文参考訳（メタデータ） (2023-06-06T17:46:48Z)
Learnability with Time-Sharing Computational Resource Concerns [65.268245109828]
本稿では,学習理論における計算資源の影響を考慮した理論的枠組みを提案する。このフレームワークは、入ってくるデータストリームが潜在的に無限であるようなストリーム学習に自然に適用できる。これはまた、インテリジェントなスーパーコンピュータオペレーティングシステムの設計に対する理論的視点を提供するかもしれない。
論文参考訳（メタデータ） (2023-05-03T15:54:23Z)
Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文参考訳（メタデータ） (2023-05-02T07:41:16Z)
Lightweight Event-based Optical Flow Estimation via Iterative Deblurring [22.949700247611695]
相関ボリュームを使わずにイベントトレースからのフローを直接推定する,軽量かつ高性能なイベントベース光フローネットワークIDNetを導入する。当社のトップパフォーマンスIDモデルは、DSECベンチマークで新たな最先端技術を設定しています。 NVidia Jetson Xavier NXでは,パラメータを80%削減し,メモリフットプリントを20倍削減し,40%高速動作を実現しています。
論文参考訳（メタデータ） (2022-11-24T17:26:27Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文参考訳（メタデータ） (2022-03-23T11:33:27Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文参考訳（メタデータ） (2021-07-19T02:55:48Z)
Faster than LASER -- Towards Stream Reasoning with Deep Neural Networks [0.6649973446180738]
Stream Reasonerは、推論とストリーム処理のギャップを埋めることを目指している。 LASERはデータストリーム上の複雑な推論を解析・実行するために設計されたストリーム推論器である。本稿では、時系列予測や分類に特に適していることを示す畳み込みニューラルネットワークと反復ニューラルネットワークが、LASERによる推論を近似するために訓練可能であるかを検討する。
論文参考訳（メタデータ） (2021-06-15T22:06:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。