論文の概要: Task-Specific Efficiency Analysis: When Small Language Models Outperform Large Language Models
- arxiv url: http://arxiv.org/abs/2603.21389v1
- Date: Sun, 22 Mar 2026 20:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.394564
- Title: Task-Specific Efficiency Analysis: When Small Language Models Outperform Large Language Models
- Title(参考訳): タスク特化効率分析:小言語モデルが大言語モデルを上回る場合
- Authors: Jinghan Cao, Yu Ma, Xinjin Li, Qingyang Ren, Xiangyun Chen,
- Abstract要約: 大規模言語モデルは目覚ましい性能を達成するが、資源に制約のあるデプロイメントには適さない相当な計算コストを発生させる。
本稿では,5つの異なるNLPタスクを対象とした16の言語モデルの比較を行った。
- 参考スコア(独自算出の注目度): 2.067969102829454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models achieve remarkable performance but incur substantial computational costs unsuitable for resource-constrained deployments. This paper presents the first comprehensive task-specific efficiency analysis comparing 16 language models across five diverse NLP tasks. We introduce the Performance-Efficiency Ratio (PER), a novel metric integrating accuracy, throughput, memory, and latency through geometric mean normalization. Our systematic evaluation reveals that small models (0.5--3B parameters) achieve superior PER scores across all given tasks. These findings establish quantitative foundations for deploying small models in production environments prioritizing inference efficiency over marginal accuracy gains.
- Abstract(参考訳): 大規模言語モデルは目覚ましい性能を達成するが、資源に制約のあるデプロイメントには適さない相当な計算コストを発生させる。
本稿では,5つの異なるNLPタスクを対象とした16の言語モデルの比較を行った。
本稿では,幾何平均正規化による精度,スループット,メモリ,待ち時間を統合した新しいメトリクスであるPerformance-Efficiency Ratio(PER)を紹介する。
システム評価の結果,小モデル (0.5--3B パラメータ) が与えられたタスクに対して優れたPERスコアを達成できることが判明した。
これらの結果から, 限界精度よりも推論効率を優先して, 生産環境に小型モデルを展開するための定量的基盤を確立した。
関連論文リスト
- Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression [53.39128997308138]
テキスト圧縮性能に基づくモデル効率の指標である情報容量を導入する。
主流のオープンソースモデルに対する実証的な評価は、シリーズ内のさまざまなサイズのモデルが一貫した情報容量を示すことを示している。
情報容量の特徴的な特徴は、入力と出力の両方のトークン数に影響を与えるトークン化効率が組み込まれていることである。
論文 参考訳(メタデータ) (2025-11-11T10:07:32Z) - MELABenchv1: Benchmarking Large Language Models against Smaller Fine-Tuned Models for Low-Resource Maltese NLP [0.0]
低リソース言語であるMalteseにおける55の公開言語モデル(LLM)の性能を評価する。
我々の実験は、多くのモデルが、特に生成タスクにおいて、性能が良くないことを強調している。
本研究は, 事前訓練および指導訓練におけるマルタへの事前曝露が最も重要な要因であると結論付けている。
論文 参考訳(メタデータ) (2025-06-04T18:59:52Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Scaling BERT Models for Turkish Automatic Punctuation and Capitalization Correction [0.0]
本研究は,各モデルの性能指標の精度,リコール,F1スコアを系統的に比較した。
その結果,モデルのサイズが大きくなるにつれて,テキストの読みやすさと精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-12-03T18:59:51Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - GPT-Neo for commonsense reasoning -- a theoretical and practical lens [0.46040036610482665]
我々は6ドルのコモンセンス推論ベンチマークタスクを用いてGPT-neoモデルの性能を評価する。
我々は,GPT-neoモデルを用いて,より大規模なモデルベースラインに対して,より小さなモデルの性能を検討することを目的とする。
論文 参考訳(メタデータ) (2022-11-28T17:49:38Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。