論文の概要: ConsumerBench: Benchmarking Generative AI Applications on End-User Devices
- arxiv url: http://arxiv.org/abs/2506.17538v1
- Date: Sat, 21 Jun 2025 01:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.462959
- Title: ConsumerBench: Benchmarking Generative AI Applications on End-User Devices
- Title(参考訳): ConsumerBench: エンドユーザデバイス上の生成AIアプリケーションのベンチマーク
- Authors: Yile Gu, Rohan Kadekodi, Hoang Nguyen, Keisuke Kamahori, Yiyu Liu, Baris Kasikci,
- Abstract要約: クラウドのみの環境からエンドユーザデバイスに移行したGenerative AI(GenAI)アプリケーションは、リソース管理、システム効率、ユーザエクスペリエンスにおいて、新たな課題をもたらしている。
本稿では,エンドユーザーデバイス上で動作するGenAIモデルのシステム効率と応答時間を評価するための総合的なベンチマークフレームワークであるConsumerBenchを提案する。
- 参考スコア(独自算出の注目度): 6.6246058403368595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent shift in Generative AI (GenAI) applications from cloud-only environments to end-user devices introduces new challenges in resource management, system efficiency, and user experience. This paper presents ConsumerBench, a comprehensive benchmarking framework designed to evaluate the system efficiency and response time of GenAI models running on end-user devices. Unlike existing benchmarks that assume exclusive model access on dedicated GPUs, ConsumerBench simulates realistic multi-application scenarios executing concurrently on constrained hardware. Furthermore, ConsumerBench supports customizable workflows that simulate complex tasks requiring coordination among multiple applications. ConsumerBench captures both application-level metrics, including latency and Service Level Objective (SLO) attainment, and system-level metrics like CPU/GPU utilization and memory bandwidth. Through extensive experiments, ConsumerBench reveals inefficiencies in resource sharing, unfair scheduling under greedy allocation, and performance pitfalls of static model server configurations. The paper also provides practical insights for model developers and system designers, highlighting the benefits of custom kernels tailored to consumer-grade GPU architectures and the value of implementing SLO-aware scheduling strategies.
- Abstract(参考訳): クラウドのみの環境からエンドユーザデバイスに移行したGenerative AI(GenAI)アプリケーションは、リソース管理、システム効率、ユーザエクスペリエンスにおいて、新たな課題をもたらしている。
本稿では,エンドユーザーデバイス上で動作するGenAIモデルのシステム効率と応答時間を評価するための総合的なベンチマークフレームワークであるConsumerBenchを提案する。
専用GPU上の排他的モデルアクセスを前提とする既存のベンチマークとは異なり、ConsumerBenchは制約のあるハードウェア上で並列に実行される現実的なマルチアプリケーションシナリオをシミュレートする。
さらにConsumerBenchは、複数のアプリケーション間の調整を必要とする複雑なタスクをシミュレートするカスタマイズ可能なワークフローをサポートする。
ConsumerBenchは、レイテンシとサービスレベルオブジェクト(SLO)達成、CPU/GPU利用率やメモリ帯域幅といったシステムレベルのメトリクスを含む、アプリケーションレベルのメトリクスをキャプチャする。
広範な実験を通じて、ConsumerBenchはリソース共有の非効率性、不公平なアロケーション下でのスケジューリング、静的モデルサーバ構成のパフォーマンスの落とし穴を明らかにする。
また、モデル開発者やシステムデザイナに対して実用的な洞察を提供し、コンシューマグレードのGPUアーキテクチャに適したカスタムカーネルの利点とSLO対応スケジューリング戦略を実装する価値を強調した。
関連論文リスト
- Real-Time Semantic Segmentation of Aerial Images Using an Embedded U-Net: A Comparison of CPU, GPU, and FPGA Workflows [0.0]
本研究では,航空画像のリアルタイムセマンティックセグメンテーションに最適化された軽量なU-Netモデルを提案する。
実世界のデータセット上でのU-Netの精度を維持しながら、モデルのパラメータと乗算(MAC)操作を16。
論文 参考訳(メタデータ) (2025-03-07T08:33:28Z) - SeBS-Flow: Benchmarking Serverless Cloud Function Workflows [51.4200085836966]
本稿では、最初のサーバーレスワークフローベンチマークスイートSeBS-Flowを提案する。
SeBS-Flowには6つの実世界のアプリケーションベンチマークと、異なる計算パターンを表す4つのマイクロベンチマークが含まれている。
当社では,パフォーマンス,コスト,スケーラビリティ,ランタイムの偏差など,3つの主要なクラウドプラットフォームに関する包括的な評価を実施しています。
論文 参考訳(メタデータ) (2024-10-04T14:52:18Z) - Large Language Models for Power Scheduling: A User-Centric Approach [6.335540414370735]
本稿では、任意のユーザの音声要求(VRQ)をリソース割り当てベクトルに変換することで、リソーススケジューリング問題に対する新しいアーキテクチャを提案する。
具体的には、要求を最適化問題(OP)に変換するためのLLM意図認識エージェント、LLM OPパラメータ識別エージェント、OP解決エージェントを設計する。
論文 参考訳(メタデータ) (2024-06-29T15:47:28Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Intelligent Model Update Strategy for Sequential Recommendation [34.02565495747133]
我々はIntellectReqを紹介した。IntellectReqはエッジで動作するように設計されており、最小の通信オーバーヘッドでパラメータ要求のコスト対効果を評価できる。
本研究では,実時間ユーザ動作を正規分布に変換するために統計マッピング手法を用い,モデルの不確実性を定量化するためにマルチサンプル出力を用いる。
論文 参考訳(メタデータ) (2023-02-14T20:44:12Z) - Intelligent colocation of HPC workloads [0.0]
多くのHPCアプリケーションは、共有キャッシュ、命令実行ユニット、I/O、メモリ帯域幅のボトルネックに苦しんでいる。
開発者やランタイムシステムにとって、すべての重要なリソースが単一のアプリケーションによって完全に悪用されることを保証するのは難しいため、魅力的なテクニックは、複数のアプリケーションを同じサーバに配置することです。
まず,ハードウェアの性能カウンタに基づいて,コロケーションされたアプリケーションの性能劣化をモデル化することにより,サーバ効率を向上できることを示す。
論文 参考訳(メタデータ) (2021-03-16T12:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。