Fugu-MT 論文翻訳(概要): Measuring AI Systems Beyond Accuracy

論文の概要: Measuring AI Systems Beyond Accuracy

arxiv url: http://arxiv.org/abs/2204.04211v1
Date: Thu, 7 Apr 2022 17:09:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-11 12:45:54.844918
Title: Measuring AI Systems Beyond Accuracy
Title（参考訳）: 正確性を超えたAIシステムの測定
Authors: Violet Turri, Rachel Dzombak, Eric Heim, Nathan VanHoudnos, Jay Palat, Anusha Sinha
Abstract要約: 機械学習(ML)システムのパフォーマンスを評価するための現在のテストと評価(T&E)手法は、しばしば不完全なメトリクスに依存している。本稿では、総合的なT&E戦略を導くための6つの重要な疑問を概説することにより、堅牢で統合されたテストアプローチを提唱する。
参考スコア（独自算出の注目度）: 4.94227864283443
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Current test and evaluation (T&E) methods for assessing machine learning (ML) system performance often rely on incomplete metrics. Testing is additionally often siloed from the other phases of the ML system lifecycle. Research investigating cross-domain approaches to ML T&E is needed to drive the state of the art forward and to build an Artificial Intelligence (AI) engineering discipline. This paper advocates for a robust, integrated approach to testing by outlining six key questions for guiding a holistic T&E strategy.
Abstract（参考訳）: 機械学習(ML)システムのパフォーマンスを評価するための現在のテストと評価(T&E)手法は、しばしば不完全なメトリクスに依存している。テストはMLシステムのライフサイクルの他のフェーズからサイロ化されることが多い。 ML T&Eに対するクロスドメインアプローチの調査は、最先端の最先端と人工知能(AI)エンジニアリングの規律を構築するために必要である。本稿では、総合的なT&E戦略を導くための6つの重要な疑問を概説することにより、堅牢で統合されたテストアプローチを提唱する。

関連論文リスト

An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文参考訳（メタデータ） (2025-12-22T15:03:57Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。 MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文参考訳（メタデータ） (2025-04-13T19:35:43Z)
AI-Compass: A Comprehensive and Effective Multi-module Testing Tool for AI Systems [26.605694684145313]
本研究では,AIシステムを包括的かつ効果的に評価するテストツール,ツールを設計,実装する。このツールは、敵の堅牢性、モデル解釈可能性、およびニューロン分析を広範囲に評価する。私たちの研究は、ランドスケープをテストするAIシステムの一般的なソリューションに光を当てています。
論文参考訳（メタデータ） (2024-11-09T11:15:17Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
Towards Trustworthy Machine Learning in Production: An Overview of the Robustness in MLOps Approach [0.0]
近年、AI研究者や実践家は、信頼性と信頼性のある意思決定を行うシステムを構築するための原則とガイドラインを導入している。実際には、システムが運用され、実際の環境で継続的に進化し、運用するためにデプロイされる必要がある場合に、根本的な課題が発生する。この課題に対処するため、MLOps(Machine Learning Operations)は、デプロイメントにおけるMLソリューションを標準化するための潜在的なレシピとして登場した。
論文参考訳（メタデータ） (2024-10-28T09:34:08Z)
Survey of Computerized Adaptive Testing: A Machine Learning Perspective [66.26687542572974]
コンピュータ適応テスト (Computerized Adaptive Testing, CAT) は、試験の熟練度を評価するための効率的で調整された方法である。本稿では,この適応テスト手法に対する新たな視点を提示し,機械学習に着目したCATに関する調査を行うことを目的とする。
論文参考訳（メタデータ） (2024-03-31T15:09:47Z)
AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文参考訳（メタデータ） (2023-05-04T02:09:43Z)
Truthful Meta-Explanations for Local Interpretability of Machine Learning Models [10.342433824178825]
本稿では,忠実度に基づく計量である真理度測定に基づいて,局所的メタ説明手法を提案する。本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。
論文参考訳（メタデータ） (2022-12-07T08:32:04Z)
The Integration of Machine Learning into Automated Test Generation: A Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。 MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文参考訳（メタデータ） (2022-06-21T09:26:25Z)
Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文参考訳（メタデータ） (2021-06-09T05:56:42Z)
Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文参考訳（メタデータ） (2021-01-11T15:54:48Z)
Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文参考訳（メタデータ） (2020-06-21T17:14:34Z)
Manifold for Machine Learning Assurance [9.594432031144716]
本稿では,機械学習(ML)システムにおいて,要求システムを暗黙的に記述した高次元学習データから抽出する機械学習手法を提案する。その後、テストの精度測定、テスト入力生成、ターゲットのMLシステムの実行時の監視など、さまざまな品質保証タスクに利用されます。予備実験により, 提案手法により, 試験精度が試験データの多様性を推し進めるとともに, テスト生成手法が故障を防止し, 現実的なテストケースを生み出すことが確認され, 実行時モニタリングは, 対象システムの出力の信頼性を独立的に評価する手段を提供する。
論文参考訳（メタデータ） (2020-02-08T11:39:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。