Fugu-MT 論文翻訳(概要): Statistical Confidence in Functional Correctness: An Approach for AI Product Functional Correctness Evaluation

論文の概要: Statistical Confidence in Functional Correctness: An Approach for AI Product Functional Correctness Evaluation

arxiv url: http://arxiv.org/abs/2602.18357v1
Date: Fri, 20 Feb 2026 17:06:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.391903
Title: Statistical Confidence in Functional Correctness: An Approach for AI Product Functional Correctness Evaluation
Title（参考訳）: 機能的正当性における統計的信頼--AI製品機能的正当性評価へのアプローチ
Authors: Wallace Albertini, Marina Condé Araújo, Júlia Condé Araújo, Antonio Pedro Santos Alves, Marcos Kalinowski,
Abstract要約: 本稿では,機能的正確性(SCFC)における統計的信頼度について提案し,評価する。アプローチは4つのステップから構成される: 量的仕様の限界を定義し、階層化および確率的サンプリングを行い、ブートストラップを適用してパフォーマンス指標の信頼区間を推定し、最終的な指標としての能力指数を計算する。提案手法は,機能的正当性の評価を,点推定値から統計的信頼性のステートメントに移動させる,実現可能かつ価値のある方法である,と結論付けている。
参考スコア（独自算出の注目度）: 1.4521584395164622
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The quality assessment of Artificial Intelligence (AI) systems is a fundamental challenge due to their inherently probabilistic nature. Standards such as ISO/IEC 25059 provide a quality model, but they lack practical and statistically robust methods for assessing functional correctness. This paper proposes and evaluates the Statistical Confidence in Functional Correctness (SCFC) approach, which seeks to fill this gap by connecting business requirements to a measure of statistical confidence that considers both the model's average performance and its variability. The approach consists of four steps: defining quantitative specification limits, performing stratified and probabilistic sampling, applying bootstrapping to estimate a confidence interval for the performance metric, and calculating a capability index as a final indicator. The approach was evaluated through a case study on two real-world AI systems in industry involving interviews with AI experts. Valuable insights were collected from the experts regarding the utility, ease of use, and intention to adopt the methodology in practical scenarios. We conclude that the proposed approach is a feasible and valuable way to operationalize the assessment of functional correctness, moving the evaluation from a point estimate to a statement of statistical confidence.
Abstract（参考訳）: 人工知能(AI)システムの品質評価は、本質的に確率的な性質のため、根本的な課題である。 ISO/IEC 25059のような標準は品質モデルを提供するが、機能的正確性を評価するための実用的で統計的に堅牢な手法は欠如している。本稿では,ビジネス要件を,モデルの平均性能と変動性の両方を考慮した統計的信頼度尺度に接続することで,このギャップを埋めることを目的とした,機能的正確性における統計的信頼度(SCFC)アプローチを提案し,評価する。アプローチは4つのステップから構成される: 量的仕様の限界を定義し、階層化および確率的サンプリングを行い、ブートストラップを適用してパフォーマンス指標の信頼区間を推定し、最終的な指標としての能力指数を計算する。このアプローチは、AI専門家とのインタビューを含む業界における2つの実世界のAIシステムのケーススタディを通じて評価された。実用性、使いやすさ、実践シナリオで方法論を採用する意図について、専門家から貴重な洞察が得られた。提案手法は,機能的正当性の評価を,点推定値から統計的信頼性のステートメントに移動させる,実現可能かつ価値のある方法である,と結論付けている。

関連論文リスト

What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities [0.773472615056109]
ベンチマークデータに対する生成モデルの評価は今や至るところで行われている。しかし、懐疑論の高まりはその信頼性を取り巻く。報告された正確さがモデルの性能を真に反映しているとどうやってわかるのか? このステップは、推論として評価するための原則的なフレームワークを提案することで明確化します。
論文参考訳（メタデータ） (2025-09-23T21:29:04Z)
Get Global Guarantees: On the Probabilistic Nature of Perturbation Robustness [10.738378139028976]
安全クリティカルなディープラーニングアプリケーションでは、ロバストネスは入力データの知覚できない摂動を処理するニューラルネットワークの能力を測定する。既存の展開前のロバスト性評価手法では、計算コストと測定精度の間に大きなトレードオフが生じるのが普通である。本稿では,仮説テストに基づく新しい実測値であるロバスト性を評価するために,塔のロバスト性を提案する。
論文参考訳（メタデータ） (2025-08-26T16:41:04Z)
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-22T08:34:35Z)
MCQA-Eval: Efficient Confidence Evaluation in NLG with Gold-Standard Correctness Labels [16.300463494913593]
大規模言語モデル (LLM) には堅牢な信頼度推定が必要である。 McQCA-Evalは、自然言語生成における信頼度を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-02-20T05:09:29Z)
Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文参考訳（メタデータ） (2024-11-03T17:32:00Z)
A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文参考訳（メタデータ） (2024-10-04T15:44:23Z)
"A Good Bot Always Knows Its Limitations": Assessing Autonomous System Decision-making Competencies through Factorized Machine Self-confidence [5.167803438665586]
本稿では,アルゴリズムによる意思決定における能力向上に寄与するいくつかの要因について,一意に考察したFactized Machine Self-confidence(FaMSeC)フレームワークを提案する。 FaMSeCでは、自己自信指標はマルコフ決定過程の解法に埋め込まれた「確率問題解決統計」によって導出される。マルコフ決定プロセスエージェントの詳細な説明と例を含み、さまざまなタスクのコンテキストにおいて、結果評価と問題解決の質要因がどのように見つかるかを示す。
論文参考訳（メタデータ） (2024-07-29T01:22:04Z)
Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文参考訳（メタデータ） (2024-06-06T17:37:39Z)
Functional trustworthiness of AI systems by statistically valid testing [7.717286312400472]
著者らは、現在のEU人工知能(AI)法の草案で要求される不適切な措置と手続きのために、欧州市民の安全、健康、および権利を懸念している。私たちは、現在のEU AI Actの草案だけでなく、CEN/CENELECの標準化活動も、AIシステムの真の機能保証は非現実的であり、複雑すぎるという立場に頼っていることを観察しています。
論文参考訳（メタデータ） (2023-10-04T11:07:52Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文参考訳（メタデータ） (2020-10-22T12:39:11Z)
Interpretable Off-Policy Evaluation in Reinforcement Learning by Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文参考訳（メタデータ） (2020-02-10T00:26:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。