論文の概要: SLM-Bench: A Comprehensive Benchmark of Small Language Models on Environmental Impacts -- Extended Version
- arxiv url: http://arxiv.org/abs/2508.15478v1
- Date: Thu, 21 Aug 2025 11:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.305637
- Title: SLM-Bench: A Comprehensive Benchmark of Small Language Models on Environmental Impacts -- Extended Version
- Title(参考訳): SLM-Bench: 環境影響に関する小さな言語モデルの総合ベンチマーク - 拡張バージョン
- Authors: Nghiem Thanh Pham, Tung Kieu, Duc-Manh Nguyen, Son Ha Xuan, Nghia Duong-Trung, Danh Le-Phuoc,
- Abstract要約: 小型言語モデル (SLM) は計算効率とアクセシビリティを提供する。
SLM-Benchは、複数の次元にわたるSLMを評価するために設計された最初のベンチマークである。
SLM-Benchは、正確性、計算、消費の11のメトリクスを定量化し、効率トレードオフの総合的な評価を可能にする。
- 参考スコア(独自算出の注目度): 4.394046607696994
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Small Language Models (SLMs) offer computational efficiency and accessibility, yet a systematic evaluation of their performance and environmental impact remains lacking. We introduce SLM-Bench, the first benchmark specifically designed to assess SLMs across multiple dimensions, including accuracy, computational efficiency, and sustainability metrics. SLM-Bench evaluates 15 SLMs on 9 NLP tasks using 23 datasets spanning 14 domains. The evaluation is conducted on 4 hardware configurations, providing a rigorous comparison of their effectiveness. Unlike prior benchmarks, SLM-Bench quantifies 11 metrics across correctness, computation, and consumption, enabling a holistic assessment of efficiency trade-offs. Our evaluation considers controlled hardware conditions, ensuring fair comparisons across models. We develop an open-source benchmarking pipeline with standardized evaluation protocols to facilitate reproducibility and further research. Our findings highlight the diverse trade-offs among SLMs, where some models excel in accuracy while others achieve superior energy efficiency. SLM-Bench sets a new standard for SLM evaluation, bridging the gap between resource efficiency and real-world applicability.
- Abstract(参考訳): 小型言語モデル(SLM)は計算効率とアクセシビリティを提供するが、その性能と環境への影響の体系的な評価は依然として不十分である。
SLM-Benchは、精度、計算効率、サステナビリティ指標を含む複数の次元にわたるSLMを評価するために設計された最初のベンチマークである。
SLM-Benchは、14ドメインにまたがる23のデータセットを使用して、9つのNLPタスクで15のSLMを評価する。
評価は4つのハードウェア構成で行われ、その効果を厳密に比較する。
以前のベンチマークとは異なり、SLM-Benchは正確性、計算、消費の11のメトリクスを定量化し、効率のトレードオフの総合的な評価を可能にした。
評価では、制御されたハードウェア条件を考慮し、モデル間の公正な比較を保証する。
再現性とさらなる研究を容易にするための,標準化された評価プロトコルを備えたオープンソースのベンチマークパイプラインを開発した。
本研究は,SLM間の多種多様なトレードオフを浮き彫りにし,いくつかのモデルでは精度が優れ,他のモデルではエネルギー効率が優れていた。
SLM-BenchはSLM評価の新しい標準を設定し、資源効率と実世界の適用性の間のギャップを埋める。
関連論文リスト
- ThinkBench: Dynamic Out-of-Distribution Evaluation for Robust LLM Reasoning [61.750373974799366]
ThinkBenchは、大規模言語モデル(LLM)の評価フレームワークである。
推論モデルと非推論モデルの評価を統一する。
ThinkBenchは、LLMの信頼性評価を効果的に提供し、データ汚染の影響を低減する。
論文 参考訳(メタデータ) (2025-02-22T15:41:51Z) - LLM-Powered Benchmark Factory: Reliable, Generic, and Efficient [19.673388630963807]
我々は,4次元と10の基準で構成された,自動的かつ偏りのない評価フレームワークを提案する。
本フレームワークでは,大規模言語モデル(LLM)を汎用ベンチマークジェネレータとして直接プロンプトする利点と弱点を解析する。
次に、識別された弱点に対処し、それらをBenchMakerとして統合する一連の方法を紹介します。
実験により、BenchMakerは、すべてのメトリクスにおいて、人による注釈付きベンチマークよりも優れた、あるいは同等のパフォーマンスを達成することが確認された。
論文 参考訳(メタデータ) (2025-02-02T06:36:01Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。
LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。
マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-07-17T17:51:53Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。