論文の概要: Making AI Evaluation Deployment Relevant Through Context Specification
- arxiv url: http://arxiv.org/abs/2603.06811v1
- Date: Fri, 06 Mar 2026 19:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.118752
- Title: Making AI Evaluation Deployment Relevant Through Context Specification
- Title(参考訳): コンテキスト仕様によるAI評価のデプロイメント関連性の実現
- Authors: Matthew Holmes, Thiago Lacerda, Reva Schwartz,
- Abstract要約: ステータスクオAI評価アプローチは、最終的にデプロイメントの成功を決定する運用上の現実を隠蔽する。
我々は、デプロイメント決定プロセスをサポートし、通知するプロセスとしてコンテキスト仕様を導入し、記述する。
- 参考スコア(独自算出の注目度): 0.07646713951724012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With many organizations struggling to gain value from AI deployments, pressure to evaluate AI in an informed manner has intensified. Status quo AI evaluation approaches mask the operational realities that ultimately determine deployment success, making it difficult for decision makers outside the stack to know whether and how AI tools will deliver durable value. We introduce and describe context specification as a process to support and inform the deployment decision making process. Context specification turns diffuse stakeholder perspectives about what matters in a given setting into clear, named constructs: explicit definitions of the properties, behaviors, and outcomes that evaluations aim to capture, so they can be observed and measured in context. The process serves as a foundational roadmap for evaluating what AI systems are likely to do in the deployment contexts that organizations actually manage.
- Abstract(参考訳): 多くの組織がAIデプロイメントから価値を得るのに苦労しているため、インフォームドな方法でAIを評価するプレッシャーが強まっている。
ステータスクオAI評価アプローチは、最終的にデプロイメントの成功を決定する運用上の現実を隠蔽し、スタック外の意思決定者がAIツールが永続的な価値を提供するかどうかを知るのが難しくなる。
我々は、デプロイメント決定プロセスをサポートし、通知するプロセスとしてコンテキスト仕様を導入し、記述する。
コンテキスト仕様は、ある設定で何が重要かが明確で名前のついた構成物: 評価が捉えようとする特性、行動、結果を明確に定義し、それらがコンテキストで観察され、測定されるように、利害関係者の視点を変えます。
このプロセスは、組織が実際に管理するデプロイメントコンテキストにおいて、AIシステムが何をするのかを評価するための基本的なロードマップとして機能する。
関連論文リスト
- A Conceptual Framework for AI Capability Evaluations [0.0]
本稿では,AI能力評価を解析するための概念的枠組みを提案する。
広く使われている手法や用語の分析を体系化する構造化された記述的アプローチを提供する。
また、研究者は方法論的な弱点を特定し、評価を設計する実践者を支援し、政策立案者に複雑な評価の風景を精査し、比較し、ナビゲートするツールを提供する。
論文 参考訳(メタデータ) (2025-06-23T00:19:27Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - WISE: Unraveling Business Process Metrics with Domain Knowledge [0.0]
複雑な産業プロセスの異常は、しばしばイベントデータの高変動性と複雑さによって隠蔽される。
本稿では、ドメイン知識、プロセスマイニング、機械学習の統合により、ビジネスプロセスメトリクスを分析する新しい手法WISEを紹介する。
WISEはビジネスプロセス分析における自動化を強化し、望ましいプロセスフローからの逸脱を効果的に検出する。
論文 参考訳(メタデータ) (2024-10-06T07:57:08Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Interactive AI Alignment: Specification, Process, and Evaluation Alignment [30.599781014726823]
現代のAIは、ハイレベルで宣言的なインタラクションの形式を可能にする。
ユーザは、AIが生成したいと望む意図した結果を記述するが、実際には結果自体を作らない。
論文 参考訳(メタデータ) (2023-10-23T14:33:11Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Setting AI in context: A case study on defining the context and
operational design domain for automated driving [5.083561746476347]
このケーススタディでは、機械学習を自動運転に利用する知覚関数の開発における文脈定義の課題について検討する。
その結果、機械学習を用いたシステムの運用状況を定義する際に、自動車サプライヤーが経験した課題を概説した。
論文 参考訳(メタデータ) (2022-01-27T11:26:32Z) - Certifiable Artificial Intelligence Through Data Fusion [7.103626867766158]
本稿では,人工知能(AI)システムの採用,フィールド化,保守に関する課題をレビューし,提案する。
画像データ融合により、精度対距離を考慮したAI物体認識精度を支援する。
論文 参考訳(メタデータ) (2021-11-03T03:34:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。