論文の概要: Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation
- arxiv url: http://arxiv.org/abs/2307.09701v1
- Date: Wed, 19 Jul 2023 01:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:47:01.493053
- Title: Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation
- Title(参考訳): Efficency Pentathlon: 効率評価のための標準化されたアリーナ
- Authors: Hao Peng, Qingqing Cao, Jesse Dodge, Matthew E. Peters, Jared
Fernandez, Tom Sherborne, Kyle Lo, Sam Skjonsberg, Emma Strubell, Darrell
Plessas, Iz Beltagy, Evan Pete Walsh, Noah A. Smith, Hannaneh Hajishirzi
- Abstract要約: Pentathlonは、モデル効率の総合的で現実的な評価のためのベンチマークである。
Pentathlonは、モデルライフサイクルにおける計算の大部分を占める推論に焦点を当てている。
レイテンシ、スループット、メモリオーバーヘッド、エネルギー消費など、さまざまな効率面をターゲットにしたメトリクスが組み込まれている。
- 参考スコア(独自算出の注目度): 82.85015548989223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rising computational demands of modern natural language processing (NLP)
systems have increased the barrier to entry for cutting-edge research while
posing serious environmental concerns. Yet, progress on model efficiency has
been impeded by practical challenges in model evaluation and comparison. For
example, hardware is challenging to control due to disparate levels of
accessibility across different institutions. Moreover, improvements in metrics
such as FLOPs often fail to translate to progress in real-world applications.
In response, we introduce Pentathlon, a benchmark for holistic and realistic
evaluation of model efficiency. Pentathlon focuses on inference, which accounts
for a majority of the compute in a model's lifecycle. It offers a
strictly-controlled hardware platform, and is designed to mirror real-world
applications scenarios. It incorporates a suite of metrics that target
different aspects of efficiency, including latency, throughput, memory
overhead, and energy consumption. Pentathlon also comes with a software library
that can be seamlessly integrated into any codebase and enable evaluation. As a
standardized and centralized evaluation platform, Pentathlon can drastically
reduce the workload to make fair and reproducible efficiency comparisons. While
initially focused on natural language processing (NLP) models, Pentathlon is
designed to allow flexible extension to other fields. We envision Pentathlon
will stimulate algorithmic innovations in building efficient models, and foster
an increased awareness of the social and environmental implications in the
development of future-generation NLP models.
- Abstract(参考訳): 現代の自然言語処理(NLP)システムの計算要求の増加は、深刻な環境問題に対処しつつ、最先端の研究への参入障壁を高めている。
しかし、モデル評価と比較の実践的な課題によって、モデル効率の進歩が妨げられている。
例えば、ハードウェアは異なる機関間で異なるアクセシビリティレベルのために制御することが難しい。
さらに、フロップのようなメトリクスの改善は、しばしば実世界のアプリケーションの進捗に変換できない。
モデル効率の総合的および現実的な評価のためのベンチマークであるPentathlonを紹介する。
Pentathlonはモデルライフサイクルにおける計算の大部分を占める推論に焦点を当てている。
厳格に制御されたハードウェアプラットフォームを提供し、現実世界のアプリケーションシナリオを反映するように設計されている。
レイテンシ、スループット、メモリオーバーヘッド、エネルギー消費など、さまざまな効率面をターゲットにしたメトリクスが組み込まれている。
Pentathlonには、あらゆるコードベースにシームレスに統合され、評価を可能にするソフトウェアライブラリも付属している。
標準化された集中型評価プラットフォームであるPentathlonは、作業負荷を大幅に削減し、公正かつ再現可能な効率比較を可能にする。
当初は自然言語処理(NLP)モデルに重点を置いていたが、Pentathlonは他の分野への柔軟な拡張を可能にするように設計されている。
我々は,Pentathlonが効率的なモデル構築におけるアルゴリズムの革新を刺激し,次世代のNLPモデルの開発における社会的・環境的影響の認識を高めることを期待する。
関連論文リスト
- Impacts of floating-point non-associativity on reproducibility for HPC and deep learning applications [0.0]
浮動小数点非連想性に起因する並列プログラムにおける変数の実行は、アルゴリズムに大きな影響を与えることが知られている。
並列プログラミングモデルにおける浮動小数点非連想性の統計的性質について検討する。
我々は、ディープラーニングのためのGPUデプロイメントのコンテキスト内で、最近追加されたPyTorchの決定論的オプションについて検討する。
論文 参考訳(メタデータ) (2024-08-09T16:07:37Z) - Efficient Facial Landmark Detection for Embedded Systems [1.0878040851638]
本稿では、電力消費と時間遅延に関する課題に直面するエッジデバイス向けに特別に設計された、効率的な顔画像位置検出(EFLD)モデルを提案する。
EFLDは軽量のバックボーンとフレキシブルな検出ヘッドを備えており、それぞれがリソース制約されたデバイスの運用効率を大幅に向上する。
予測コストを増大させることなく,モデルの一般化性と堅牢性を高めるためのクロスフォーマットトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-07-14T14:49:20Z) - Etalon: Holistic Performance Evaluation Framework for LLM Inference Systems [11.712948114304925]
大規模言語モデル(LLM)の生産は、かなりのコストを発生させる可能性がある。
流動性指数を含む総合的な性能評価フレームワークであるEtalonを提案する。
また、さまざまなオープンソースプラットフォームや、Etalonを使ったモデル・アズ・ア・サービスも評価しています。
論文 参考訳(メタデータ) (2024-07-09T16:13:26Z) - Benchmarking Deep Learning Models on NVIDIA Jetson Nano for Real-Time Systems: An Empirical Investigation [2.3636539018632616]
この研究は、複雑なディープラーニングモデルの最適化を実証的に研究し、組み込みデバイス上で機能を分析する。
画像分類と映像行動検出のための推論速度の観点から最適化されたモデルの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:34:52Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - HULK: An Energy Efficiency Benchmark Platform for Responsible Natural
Language Processing [76.38975568873765]
本稿では,自然言語処理のためのマルチタスクエネルギー効率ベンチマークプラットフォームであるHULKを紹介する。
我々は、事前訓練されたモデルのエネルギー効率を時間とコストの観点から比較する。
論文 参考訳(メタデータ) (2020-02-14T01:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。