Fugu-MT 論文翻訳(概要): TMIQ: Quantifying Test and Measurement Domain Intelligence in Large Language Models

論文の概要: TMIQ: Quantifying Test and Measurement Domain Intelligence in Large Language Models

arxiv url: http://arxiv.org/abs/2503.02123v1
Date: Mon, 03 Mar 2025 23:12:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:38.706931
Title: TMIQ: Quantifying Test and Measurement Domain Intelligence in Large Language Models
Title（参考訳）: TMIQ:大規模言語モデルにおけるテストと測定ドメインインテリジェンス
Authors: Emmanuel A. Olowe, Danial Chitnis,
Abstract要約: 大規模言語モデル(LLM)を定量的に評価するベンチマークであるTMIQ(Test and Measurement Intelligence Quotient)を導入する。 TMIQは、SCPIコマンドマッチング精度、ランク付けされた応答評価、Chain-of-Thought Reasoning (CoT)など、詳細な評価のための包括的なシナリオとメトリクスを提供する。各種LSMの試験では, SCPIコマンドマッチング精度は56%から73%, 一致した第1位スコアは約33%であった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Test and Measurement domain, known for its strict requirements for accuracy and efficiency, is increasingly adopting Generative AI technologies to enhance the performance of data analysis, automation, and decision-making processes. Among these, Large Language Models (LLMs) show significant promise for advancing automation and precision in testing. However, the evaluation of LLMs in this specialized area remains insufficiently explored. To address this gap, we introduce the Test and Measurement Intelligence Quotient (TMIQ), a benchmark designed to quantitatively assess LLMs across a wide range of electronic engineering tasks. TMIQ offers a comprehensive set of scenarios and metrics for detailed evaluation, including SCPI command matching accuracy, ranked response evaluation, Chain-of-Thought Reasoning (CoT), and the impact of output formatting variations required by LLMs on performance. In testing various LLMs, our findings indicate varying levels of proficiency, with exact SCPI command match accuracy ranging from around 56% to 73%, and ranked matching first-position scores achieving around 33% for the best-performing model. We also assess token usage, cost-efficiency, and response times, identifying trade-offs between accuracy and operational efficiency. Additionally, we present a command-line interface (CLI) tool that enables users to generate datasets using the same methodology, allowing for tailored assessments of LLMs. TMIQ and the CLI tool provide a rigorous, reproducible means of evaluating LLMs for production environments, facilitating continuous monitoring and identifying strengths and areas for improvement, and driving innovation in their selections for applications within the Test and Measurement industry.
Abstract（参考訳）: Test and Measurementドメインは、精度と効率の厳しい要件で知られており、データ分析、自動化、意思決定プロセスのパフォーマンスを高めるために、ジェネレーティブAI技術の採用が増えている。これらのうち、LLM(Large Language Models)は、自動化とテストの精度を向上する上で、大きな可能性を秘めている。しかし, この専門分野におけるLCMの評価は依然として不十分である。このギャップに対処するために、幅広い電子工学タスクにわたるLCMを定量的に評価するベンチマークであるTest and Measurement Intelligence Quotient (TMIQ)を導入する。 TMIQは、SCPIコマンドマッチング精度、ランク付けされた応答評価、Chain-of-Thought Reasoning (CoT)、LLMが要求する出力フォーマットの変化がパフォーマンスに与える影響など、詳細な評価のための包括的なシナリオとメトリクスを提供する。各種LCMの試験では, SCPIコマンドマッチング精度は56%から73%程度であり, 最適性能モデルでは33%程度と評価された。また、トークンの使用量、コスト効率、レスポンスタイムを評価し、正確性と運用効率のトレードオフを特定します。さらに,同じ手法を用いてデータセットを生成可能なコマンドラインインタフェース(CLI)ツールを提案する。 TMIQとCLIツールは、運用環境のLLMを評価するための厳密で再現可能な手段を提供し、継続的監視を容易にし、改善のための強度と領域を特定し、テストと測定業界におけるアプリケーション選択におけるイノベーションを推進します。

関連論文リスト

Challenges in Testing Large Language Model Based Software: A Faceted Taxonomy [14.041979999979166]
LLM(Large Language Models)とMulti-Agent LLM(MALLMs)は、従来の機械学習ソフトウェアとは異なり、非決定性を導入している。本稿では, LLMテストケース設計の分類について, 研究文献, 経験, 実践状況を表すオープンソースツールの両面から報告する。
論文参考訳（メタデータ） (2025-03-01T13:15:56Z)
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。既存のファクトチェック評価手法は静的データセットと分類基準に依存している。本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文参考訳（メタデータ） (2025-02-25T07:44:22Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Benchmarking Prompt Sensitivity in Large Language Models [13.986971540998258]
大規模言語モデル(LLM)は、迅速な定式化のバリエーションに非常に敏感である。本稿では,LLMの性能に及ぼす短時間の即時変動の影響を調べるために,新しいタスクであるPrompt Sensitivity Predictionとデータセットを提案する。
論文参考訳（メタデータ） (2025-02-09T23:01:03Z)
The Potential of LLMs in Automating Software Testing: From Generation to Reporting [0.0]
手動テストは効果的だが、時間とコストがかかり、自動化メソッドの需要が増大する。大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学に大きな影響を与えている。本稿では,人間の介入を減らし,テスト効率を向上させるため,LSMを用いた自動ソフトウェアテストに対するエージェント指向アプローチについて検討する。
論文参考訳（メタデータ） (2024-12-31T02:06:46Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Estimating Large Language Model Capabilities without Labeled Test Data [51.428562302037534]
大規模言語モデル(LLM)は、ほんの数例からICL(In-context Learning)を実行するという印象的な能力を持っている。 ICLの精度推定タスクを提案し、新しいタスクで文脈内学習を行う場合のLLMの精度を予測する。
論文参考訳（メタデータ） (2023-05-24T06:55:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。