Fugu-MT 論文翻訳(概要): From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making

論文の概要: From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making

arxiv url: http://arxiv.org/abs/2603.18895v1
Date: Thu, 19 Mar 2026 13:35:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.170777
Title: From Accuracy to Readiness: Metrics and Benchmarks for Human-AI Decision-Making
Title（参考訳）: 正確性から準備まで:人間-AI意思決定のためのメトリクスとベンチマーク
Authors: Min Hun Lee,
Abstract要約: 実証的な証拠は、多くの失敗が誤った信頼から生じることを示している。本稿では,チーム準備を主眼とした人間とAIの意思決定を評価するためのフレームワークを提案する。
参考スコア（独自算出の注目度）: 0.5153774021264936
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Artificial intelligence (AI) systems are deployed as collaborators in human decision-making. Yet, evaluation practices focus primarily on model accuracy rather than whether human-AI teams are prepared to collaborate safely and effectively. Empirical evidence shows that many failures arise from miscalibrated reliance, including overuse when AI is wrong and underuse when it is helpful. This paper proposes a measurement framework for evaluating human-AI decision-making centered on team readiness. We introduce a four part taxonomy of evaluation metrics spanning outcomes, reliance behavior, safety signals, and learning over time, and connect these metrics to the Understand-Control-Improve (U-C-I) lifecycle of human-AI onboarding and collaboration. By operationalizing evaluation through interaction traces rather than model properties or self-reported trust, our framework enables deployment-relevant assessment of calibration, error recovery, and governance. We aim to support more comparable benchmarks and cumulative research on human-AI readiness, advancing safer and more accountable human-AI collaboration.
Abstract（参考訳）: 人工知能(AI)システムは、人間の意思決定において協力者として展開される。しかし、評価プラクティスは、人間とAIチームが安全かつ効果的に協力する準備が整っているかどうかよりも、モデル精度に重点を置いています。実証的な証拠は、AIが間違っていた場合の過剰使用や、それが有用であった場合の未使用など、多くの失敗が誤った依存から生じることを示している。本稿では,チーム準備を主眼とした人間とAIの意思決定を評価するためのフレームワークを提案する。我々は、成果、信頼行動、安全信号、学習にまたがる評価指標の4つの分類法を導入し、これらの指標を、人間-AIのオンボードおよびコラボレーションのアンダースタンド・コントロル・イムプロブ(U-C-I)ライフサイクルに接続する。モデル特性や自己報告された信頼よりも,インタラクショントレースによる評価を運用することで,キャリブレーションやエラー回復,ガバナンスのデプロイメント関連評価が可能になる。我々は、より同等のベンチマークと、人間-AIの準備性に関する累積的な研究をサポートし、より安全で説明可能な人間-AIコラボレーションを促進することを目指している。

関連論文リスト

Epistemology gives a Future to Complementarity in Human-AI Interactions [42.371764229953165]
相補性とは、AIシステムによって支えられた人間は、意思決定プロセスにおいて単独でより優れる、という主張である。我々は,人間とAIの相互作用が信頼できる過程であることを示す証拠として,相補性の歴史的事例が機能すると主張している。
論文参考訳（メタデータ） (2026-01-14T21:04:28Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文参考訳（メタデータ） (2025-02-27T20:21:36Z)
To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文参考訳（メタデータ） (2024-09-22T09:43:27Z)
A Decision Theoretic Framework for Measuring AI Reliance [20.669176502049066]
人間はしばしば人工知能(AI)システムの助けを借りて意思決定をする。研究者は、補完的なパフォーマンスを達成する上で重要な要素として、人間がAIに適切に依存していることを確認する。本稿では, 統計的決定理論に基づく信頼の形式的定義を提案し, 意思決定者がAIの推奨に従う確率として信頼の概念を分離する。
論文参考訳（メタデータ） (2024-01-27T09:13:09Z)
Confounding-Robust Policy Improvement with Human-AI Teams [8.315707564931465]
我々は,人間とAIのコラボレーションにおいて,観測不能なコンバウンディングに対処する新しいソリューションを提案する。このアプローチでは、ドメインの専門知識とAI駆動の統計モデリングを組み合わせることで、潜在的に隠れた共同設立者を説明する。
論文参考訳（メタデータ） (2023-10-13T02:39:52Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Advancing Human-AI Complementarity: The Impact of User Expertise and Algorithmic Tuning on Joint Decision Making [10.890854857970488]
ユーザのドメイン知識、AIシステムのメンタルモデル、レコメンデーションへの信頼など、多くの要因がヒューマンAIチームの成功に影響を与える可能性がある。本研究は,非自明な血管ラベル作成作業において,血管が流れているか停止しているかを被験者に示すことを目的とした。以上の結果から,AI-Assistantからの推薦はユーザの意思決定に役立つが,AIに対するユーザベースラインのパフォーマンスや,AIエラー型の相補的チューニングといった要因は,チーム全体のパフォーマンスに大きな影響を及ぼすことが示された。
論文参考訳（メタデータ） (2022-08-16T21:39:58Z)
Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文参考訳（メタデータ） (2020-01-07T15:33:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。