論文の概要: TMIQ: Quantifying Test and Measurement Domain Intelligence in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.02123v1
- Date: Mon, 03 Mar 2025 23:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:35.437551
- Title: TMIQ: Quantifying Test and Measurement Domain Intelligence in Large Language Models
- Title(参考訳): TMIQ:大規模言語モデルにおけるテストと測定ドメインインテリジェンス
- Authors: Emmanuel A. Olowe, Danial Chitnis,
- Abstract要約: 大規模言語モデル(LLM)を定量的に評価するベンチマークであるTMIQ(Test and Measurement Intelligence Quotient)を導入する。
TMIQは、SCPIコマンドマッチング精度、ランク付けされた応答評価、Chain-of-Thought Reasoning (CoT)など、詳細な評価のための包括的なシナリオとメトリクスを提供する。
各種LSMの試験では, SCPIコマンドマッチング精度は56%から73%, 一致した第1位スコアは約33%であった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Test and Measurement domain, known for its strict requirements for accuracy and efficiency, is increasingly adopting Generative AI technologies to enhance the performance of data analysis, automation, and decision-making processes. Among these, Large Language Models (LLMs) show significant promise for advancing automation and precision in testing. However, the evaluation of LLMs in this specialized area remains insufficiently explored. To address this gap, we introduce the Test and Measurement Intelligence Quotient (TMIQ), a benchmark designed to quantitatively assess LLMs across a wide range of electronic engineering tasks. TMIQ offers a comprehensive set of scenarios and metrics for detailed evaluation, including SCPI command matching accuracy, ranked response evaluation, Chain-of-Thought Reasoning (CoT), and the impact of output formatting variations required by LLMs on performance. In testing various LLMs, our findings indicate varying levels of proficiency, with exact SCPI command match accuracy ranging from around 56% to 73%, and ranked matching first-position scores achieving around 33% for the best-performing model. We also assess token usage, cost-efficiency, and response times, identifying trade-offs between accuracy and operational efficiency. Additionally, we present a command-line interface (CLI) tool that enables users to generate datasets using the same methodology, allowing for tailored assessments of LLMs. TMIQ and the CLI tool provide a rigorous, reproducible means of evaluating LLMs for production environments, facilitating continuous monitoring and identifying strengths and areas for improvement, and driving innovation in their selections for applications within the Test and Measurement industry.
- Abstract(参考訳): Test and Measurementドメインは、精度と効率の厳しい要件で知られており、データ分析、自動化、意思決定プロセスのパフォーマンスを高めるために、ジェネレーティブAI技術の採用が増えている。
これらのうち、LLM(Large Language Models)は、自動化とテストの精度を向上する上で、大きな可能性を秘めている。
しかし, この専門分野におけるLCMの評価は依然として不十分である。
このギャップに対処するために、幅広い電子工学タスクにわたるLCMを定量的に評価するベンチマークであるTest and Measurement Intelligence Quotient (TMIQ)を導入する。
TMIQは、SCPIコマンドマッチング精度、ランク付けされた応答評価、Chain-of-Thought Reasoning (CoT)、LLMが要求する出力フォーマットの変化がパフォーマンスに与える影響など、詳細な評価のための包括的なシナリオとメトリクスを提供する。
各種LCMの試験では, SCPIコマンドマッチング精度は56%から73%程度であり, 最適性能モデルでは33%程度と評価された。
また、トークンの使用量、コスト効率、レスポンスタイムを評価し、正確性と運用効率のトレードオフを特定します。
さらに,同じ手法を用いてデータセットを生成可能なコマンドラインインタフェース(CLI)ツールを提案する。
TMIQとCLIツールは、運用環境のLLMを評価するための厳密で再現可能な手段を提供し、継続的監視を容易にし、改善のための強度と領域を特定し、テストと測定業界におけるアプリケーション選択におけるイノベーションを推進します。
関連論文リスト
- Benchmarking Prompt Sensitivity in Large Language Models [13.986971540998258]
大規模言語モデル(LLM)は、迅速な定式化のバリエーションに非常に敏感である。
本稿では,LLMの性能に及ぼす短時間の即時変動の影響を調べるために,新しいタスクであるPrompt Sensitivity Predictionとデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-09T23:01:03Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - The Potential of LLMs in Automating Software Testing: From Generation to Reporting [0.0]
手動テストは効果的だが、時間とコストがかかり、自動化メソッドの需要が増大する。
大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学に大きな影響を与えている。
本稿では,人間の介入を減らし,テスト効率を向上させるため,LSMを用いた自動ソフトウェアテストに対するエージェント指向アプローチについて検討する。
論文 参考訳(メタデータ) (2024-12-31T02:06:46Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。
ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文 参考訳(メタデータ) (2023-05-24T06:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。