論文の概要: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
- arxiv url: http://arxiv.org/abs/2510.21443v1
- Date: Fri, 24 Oct 2025 13:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 15:45:42.333648
- Title: Does Model Size Matter? A Comparison of Small and Large Language Models for Requirements Classification
- Title(参考訳): モデルのサイズは重要か? : 要求分類のための小・大言語モデルの比較
- Authors: Mohammad Amin Zadenoori, Vincenzo De Martino, Jacek Dabrowski, Xavier Franch, Alessio Ferrari,
- Abstract要約: 大規模言語モデル(LLM)は、要求工学(RE)のための自然言語処理(NLP)タスクにおいて顕著な結果を示す。
対照的に、小さな言語モデル(SLM)は軽量でローカルにデプロイ可能な代替手段を提供する。
- 参考スコア(独自算出の注目度): 4.681300232651754
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: [Context and motivation] Large language models (LLMs) show notable results in natural language processing (NLP) tasks for requirements engineering (RE). However, their use is compromised by high computational cost, data sharing risks, and dependence on external services. In contrast, small language models (SLMs) offer a lightweight, locally deployable alternative. [Question/problem] It remains unclear how well SLMs perform compared to LLMs in RE tasks in terms of accuracy. [Results] Our preliminary study compares eight models, including three LLMs and five SLMs, on requirements classification tasks using the PROMISE, PROMISE Reclass, and SecReq datasets. Our results show that although LLMs achieve an average F1 score of 2% higher than SLMs, this difference is not statistically significant. SLMs almost reach LLMs performance across all datasets and even outperform them in recall on the PROMISE Reclass dataset, despite being up to 300 times smaller. We also found that dataset characteristics play a more significant role in performance than model size. [Contribution] Our study contributes with evidence that SLMs are a valid alternative to LLMs for requirements classification, offering advantages in privacy, cost, and local deployability.
- Abstract(参考訳): [文脈とモチベーション]大規模言語モデル(LLM)は,要求工学(RE)のための自然言語処理(NLP)タスクにおいて顕著な結果を示す。
しかし、それらの利用は高い計算コスト、データ共有リスク、外部サービスへの依存などによって損なわれている。
対照的に、小さな言語モデル(SLM)は軽量でローカルにデプロイ可能な代替手段を提供する。
[クエスト/プロブレム]SLMがREタスクのLLMと比較して精度が良いかはいまだ不明である。
結果]PROMISE, PROMISE Reclass, SecReqデータセットを用いた要件分類タスクにおいて, 3つのLSMと5つのSLMを含む8つのモデルを比較した。
その結果, LLM は SLM よりも平均 F1 スコアが 2% 高いが, この差は統計的に有意ではないことがわかった。
SLMは、すべてのデータセットでほぼLLMのパフォーマンスに達し、最大300倍小さいにもかかわらず、PROMISE Reclassデータセットでのリコールよりもパフォーマンスが優れています。
また、データセットの特徴がモデルサイズよりもパフォーマンスにおいて重要な役割を担っていることもわかりました。
コントリビューション]本研究は,SLMがLCMの要件分類に有効な代替手段であり,プライバシ,コスト,ローカルなデプロイ性にメリットがあることを示す証拠として貢献する。
関連論文リスト
- Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare [0.6880206021209538]
ファインタニングは、ゼロショット結果と比較して、すべてのシナリオでSLMのパフォーマンスを著しく改善した。
ドメイン依存のSLMは、特に難しいタスクにおいて、微調整後の一般的なSLMよりもパフォーマンスが良くなった。
さらなるドメイン固有の事前訓練は、より簡単なタスクでは控えめなゲインを得たが、複雑なデータスカースタスクでは大幅に改善された。
論文 参考訳(メタデータ) (2025-04-29T21:50:06Z) - LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。
In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。
本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文 参考訳(メタデータ) (2025-04-21T11:11:07Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。