論文の概要: CEBench: A Benchmarking Toolkit for the Cost-Effectiveness of LLM Pipelines
- arxiv url: http://arxiv.org/abs/2407.12797v1
- Date: Thu, 20 Jun 2024 21:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:57:39.453835
- Title: CEBench: A Benchmarking Toolkit for the Cost-Effectiveness of LLM Pipelines
- Title(参考訳): CEBench: LLMパイプラインのコスト効果評価のためのベンチマークツールキット
- Authors: Wenbo Sun, Jiaqi Wang, Qiming Guo, Ziyu Li, Wenlu Wang, Rihan Hai,
- Abstract要約: CEBenchは、オンラインの大規模言語モデルをベンチマークするためのオープンソースのツールキットである。
LLMデプロイメントに必要な支出と有効性の間の重要なトレードオフに焦点を当てている。
この能力は、コストへの影響を最小限にしつつ、有効性を最大化することを目的とした重要な意思決定プロセスをサポートします。
- 参考スコア(独自算出の注目度): 29.25579967636023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online Large Language Model (LLM) services such as ChatGPT and Claude 3 have transformed business operations and academic research by effortlessly enabling new opportunities. However, due to data-sharing restrictions, sectors such as healthcare and finance prefer to deploy local LLM applications using costly hardware resources. This scenario requires a balance between the effectiveness advantages of LLMs and significant financial burdens. Additionally, the rapid evolution of models increases the frequency and redundancy of benchmarking efforts. Existing benchmarking toolkits, which typically focus on effectiveness, often overlook economic considerations, making their findings less applicable to practical scenarios. To address these challenges, we introduce CEBench, an open-source toolkit specifically designed for multi-objective benchmarking that focuses on the critical trade-offs between expenditure and effectiveness required for LLM deployments. CEBench allows for easy modifications through configuration files, enabling stakeholders to effectively assess and optimize these trade-offs. This strategic capability supports crucial decision-making processes aimed at maximizing effectiveness while minimizing cost impacts. By streamlining the evaluation process and emphasizing cost-effectiveness, CEBench seeks to facilitate the development of economically viable AI solutions across various industries and research fields. The code and demonstration are available in \url{https://github.com/amademicnoboday12/CEBench}.
- Abstract(参考訳): ChatGPT や Claude 3 のようなオンライン大規模言語モデル (LLM) サービスは、新たな機会を積極的に実現することによって、ビジネスオペレーションや学術研究を変革している。
しかし、データ共有の制限のため、医療や金融といった分野は、コストのかかるハードウェアリソースを使用したローカルLLMアプリケーションをデプロイすることを好んでいる。
このシナリオは、LLMの有効性とかなりの財政的負担のバランスを必要とする。
さらに、モデルの急速な進化は、ベンチマーク作業の頻度と冗長性を高める。
既存のベンチマークツールキットは、有効性に重点を置いており、しばしば経済的な考察を見落としており、その発見は実践的なシナリオには適用できない。
CEBenchは多目的ベンチマークに特化して設計されたオープンソースのツールキットで、LLMデプロイメントに必要な支出と有効性の間の重要なトレードオフに焦点を当てている。
CEBenchは構成ファイルを簡単に変更できるので、ステークホルダーはこれらのトレードオフを効果的に評価し、最適化することができる。
この戦略的能力は、コストへの影響を最小限にしつつ、有効性を最大化することを目的とした重要な意思決定プロセスをサポートします。
CEBenchは、評価プロセスの合理化とコスト効率の強調により、さまざまな産業や研究分野における経済的に実行可能なAIソリューションの開発を促進することを目指している。
コードとデモは \url{https://github.com/amademicnoboday12/CEBench} で公開されている。
関連論文リスト
- COSMosFL: Ensemble of Small Language Models for Fault Localisation [11.720815956899116]
投票機構を用いたタスクレベルのLCMアンサンブル手法であるCOSMosを提案する。
本稿では, LLMの精度とエネルギー消費, 推定時間, 使用するトークン数といった様々なコストとの間の費用対効果のトレードオフについて報告する。
論文 参考訳(メタデータ) (2025-02-05T06:09:26Z) - CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing [56.98081258047281]
CITERはトークンレベルのルーティング戦略を通じて、小規模および大規模言語モデル(SLMs & LLMs)間の効率的な協調を可能にする。
ルータの学習をポリシー最適化として定式化し、予測の質と生成の推論コストの両方に基づいて報酬を受け取る。
実験の結果,CITERは高品質な生成を保ちながら推論コストを低減し,リアルタイムおよびリソース制約のあるアプリケーションに対して有望なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2025-02-04T03:36:44Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
得られたモデルLibraChemは,Claude-3,GPT-4o,LLaMA-3などのLLMをそれぞれ13.44%,7.16%,7.10%で上回った。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context [0.9999629695552196]
大規模言語モデル(LLM)は、対話レコメンデーションシステム(CRS)の戦略的ポテンシャルにおいて大きな進化をもたらす。
しかし、研究は主に、エンドユーザー評価や企業への戦略的影響ではなく、LCM主導のCRSを実装するための技術フレームワークに焦点を当てている。
目的システムメトリクスと主観的ユーザ評価の両方を用いて,LCM駆動型CRSを中小企業環境で設計し,それに続く性能について詳述する。
論文 参考訳(メタデータ) (2024-07-05T12:42:31Z) - Assessing Economic Viability: A Comparative Analysis of Total Cost of Ownership for Domain-Adapted Large Language Models versus State-of-the-art Counterparts in Chip Design Coding Assistance [10.364901568556435]
本稿では,ドメイン適応型大言語モデル (LLM) と最先端LLM (SoTA) の比較検討を行った。
論文 参考訳(メタデータ) (2024-04-12T23:37:56Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach [7.996010840316654]
本稿では,Large Language Models (LLMs) を用いた不確実性低減フレームワークを提案する。
LLMは、先進的な言語能力と、広範なデータサイエンスの専門知識を持たない人々に対して大きな利点をもたらす「従量制」モデルに便乗している。
我々は,本手法が効率的かつ効果的であることを示し,実世界のタスクに有望な応用を提供する。
論文 参考訳(メタデータ) (2024-01-07T09:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。