論文の概要: RUM: Rule+LLM-Based Comprehensive Assessment on Testing Skills
- arxiv url: http://arxiv.org/abs/2508.12922v1
- Date: Mon, 18 Aug 2025 13:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.359875
- Title: RUM: Rule+LLM-Based Comprehensive Assessment on Testing Skills
- Title(参考訳): RUM:ルール+LLMに基づくテストスキルの総合評価
- Authors: Yue Wang, Zhenyu Chen, Yuan Zhao, Chunrong Fang, Ziyuan Wang, Song Huang,
- Abstract要約: META法は、ソフトウェアテストに関する国立大学学生コンテストにおいて多次元テストスキル評価システムとして機能している。
本稿ではルールと大規模言語モデル(LLM)を組み合わせた総合評価手法であるRUMを提案する。
実験の結果、従来の手動テストスキルアセスメントと比較して、RUMは評価効率を80.77%改善し、コストを97.38%削減した。
- 参考スコア(独自算出の注目度): 13.809805298090941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past eight years, the META method has served as a multidimensional testing skill assessment system in the National College Student Contest on Software Testing, successfully assessing over 100,000 students' testing skills. However, META is primarily limited to the objective assessment of test scripts, lacking the ability to automatically assess subjective aspects such as test case and test report. To address this limitation, this paper proposes RUM, a comprehensive assessment approach that combines rules and large language models (LLMs). RUM achieves a comprehensive assessment by rapidly processing objective indicators through rules while utilizing LLMs for in-depth subjective analysis of test case documents, test scripts, and test reports. The experimental results show that compared to traditional manual testing skill assessment, RUM improves assessment efficiency by 80.77\% and reduces costs by 97.38\%, while maintaining high accuracy and consistency of assessment. By applying RUM on the contest on software testing, we find that it not only enhances the efficiency and scalability of skill assessment in software testing education, but also provides teachers with more comprehensive and objective evidence for student ability assessment, facilitating personalized teaching and learning. This study offers new insights into the assessment of testing skills, which are expected to promote further development in test process optimization and software quality assurance.
- Abstract(参考訳): 過去8年間で、META法は、ソフトウェアテストに関する国立大学学生コンテストにおいて、多次元テストスキルアセスメントシステムとして機能し、10万人以上の学生のテストスキルの評価に成功した。
しかし、METAは主にテストスクリプトの客観的評価に限られており、テストケースやテストレポートなどの主観的な側面を自動的に評価する能力が欠如している。
本稿では,ルールと大規模言語モデル(LLM)を組み合わせた総合評価手法であるRUMを提案する。
RUMは、テストケース文書、テストスクリプト、テストレポートの詳細な主観的分析にLLMを活用しながら、ルールを通じて客観的指標を迅速に処理することで、包括的な評価を実現する。
実験の結果,従来の手動テストスキルアセスメントと比較して,RUMは評価効率を80.77\%改善し,コストを97.38\%削減し,精度と評価の整合性を維持した。
ソフトウェアテスティングのコンテストにRUMを適用することで、ソフトウェアテスティング教育におけるスキルアセスメントの効率性とスケーラビリティを高めるだけでなく、教師により包括的で客観的な生徒の能力評価の証拠を提供し、パーソナライズされた教育と学習を促進することができる。
本研究は,テストプロセス最適化とソフトウェア品質保証のさらなる開発を促進することが期待される,テストスキルの評価に関する新たな知見を提供する。
関連論文リスト
- TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - Cer-Eval: Certifiable and Cost-Efficient Evaluation Framework for LLMs [29.764833226591012]
本稿では,大規模言語モデル(LLM)の検証と費用対効果評価フレームワークを提案する。
テストサンプル複雑性'を用いて、認定された評価に必要なテストポイント数を定量化し、テストサンプル複雑性の厳密な境界を導出します。
開発した理論に基づいて,LLM評価のコストを最小限に抑えるために,テストポイントを適応的に選択する分割型アルゴリズムCer-Evalを開発した。
論文 参考訳(メタデータ) (2025-05-02T17:05:01Z) - QG-SMS: Enhancing Test Item Analysis via Student Modeling and Simulation [13.202947148434333]
テスト項目分析(テスト項目解析)をQG評価に導入する。
トピックカバレッジ、アイテムの難易度、アイテムの識別、イントラクタ効率など、ディメンションによって品質が異なる質問のペアを構築します。
学生のモデリングとシミュレーションに大規模言語モデルを活用する新しいQG評価フレームワークQG-SMSを提案する。
論文 参考訳(メタデータ) (2025-03-07T19:21:59Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - An Exploration of Higher Education Course Evaluation by Large Language Models [4.943165921136573]
人工知能(AI)における大規模言語モデル(LLM)は、コース評価プロセスを強化するための新しい道筋を示す。
本研究は,中国大大学の100コースにわたる厳密な実験を行い,複数の視点から自動コース評価へのLLMの適用について検討した。
論文 参考訳(メタデータ) (2024-11-03T20:43:52Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。