論文の概要: Bias in the Loop: How Humans Evaluate AI-Generated Suggestions
- arxiv url: http://arxiv.org/abs/2509.08514v1
- Date: Wed, 10 Sep 2025 11:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.409221
- Title: Bias in the Loop: How Humans Evaluate AI-Generated Suggestions
- Title(参考訳): ループのバイアス:AIが生み出す提案を人間がどのように評価するか
- Authors: Jacob Beck, Stephanie Eckman, Christoph Kern, Frauke Kreuter,
- Abstract要約: 人間とAIのコラボレーションは、医療診断からコンテンツモデレーションに至るまで、業界全体の意思決定を促進する。
これらのコラボレーションが成功するか失敗するかを決定する心理的要因についてはほとんど分かっていません。
我々は,2,784人の参加者によるランダム化実験を行い,AIによる提案に対するタスクデザインと個人特性がどのように人間の反応を形作るかを検討した。
- 参考スコア(独自算出の注目度): 9.578382668831988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-AI collaboration increasingly drives decision-making across industries, from medical diagnosis to content moderation. While AI systems promise efficiency gains by providing automated suggestions for human review, these workflows can trigger cognitive biases that degrade performance. We know little about the psychological factors that determine when these collaborations succeed or fail. We conducted a randomized experiment with 2,784 participants to examine how task design and individual characteristics shape human responses to AI-generated suggestions. Using a controlled annotation task, we manipulated three factors: AI suggestion quality in the first three instances, task burden through required corrections, and performance-based financial incentives. We collected demographics, attitudes toward AI, and behavioral data to assess four performance metrics: accuracy, correction activity, overcorrection, and undercorrection. Two patterns emerged that challenge conventional assumptions about human-AI collaboration. First, requiring corrections for flagged AI errors reduced engagement and increased the tendency to accept incorrect suggestions, demonstrating how cognitive shortcuts influence collaborative outcomes. Second, individual attitudes toward AI emerged as the strongest predictor of performance, surpassing demographic factors. Participants skeptical of AI detected errors more reliably and achieved higher accuracy, while those favorable toward automation exhibited dangerous overreliance on algorithmic suggestions. The findings reveal that successful human-AI collaboration depends not only on algorithmic performance but also on who reviews AI outputs and how review processes are structured. Effective human-AI collaborations require consideration of human psychology: selecting diverse evaluator samples, measuring attitudes, and designing workflows that counteract cognitive biases.
- Abstract(参考訳): 人間とAIのコラボレーションは、医療診断からコンテンツモデレーションに至るまで、業界全体の意思決定を促進する。
AIシステムは人間のレビューのための自動提案を提供することで効率の向上を約束するが、これらのワークフローはパフォーマンスを低下させる認知バイアスを引き起こす可能性がある。
これらのコラボレーションが成功するか失敗するかを決定する心理的要因についてはほとんど分かっていません。
我々は,2,784人の参加者によるランダム化実験を行い,AIによる提案に対するタスクデザインと個人特性がどのように人間の反応を形作るかを検討した。
制御されたアノテーションタスクを使用して、最初の3つのインスタンスにおけるAI提案品質、必要な修正によるタスク負担、パフォーマンスベースの財務インセンティブの3つの要素を操作した。
我々は、人口統計、AIに対する態度、行動データを収集し、4つのパフォーマンス指標(精度、補正活動、過度補正、過小補正)を評価した。
人とAIのコラボレーションに関する従来の仮定に挑戦する2つのパターンが出現しました。
まず、フラグ付きAIエラーの修正を必要とすると、エンゲージメントが減少し、誤った提案を受け入れる傾向が高まり、認知的ショートカットが協調的な結果にどのように影響するかを示す。
第2に、AIに対する個人的態度が、人口統計上の要因を超越した、パフォーマンスの最も強い予測要因として浮上した。
AIに懐疑的な参加者はエラーをより確実に検出し、より高い精度を達成した。
その結果、人間とAIのコラボレーションの成功は、アルゴリズムのパフォーマンスだけでなく、誰がAI出力をレビューするか、どのようにレビュープロセスが構造化されているかにも依存していることがわかった。
効果的な人間とAIのコラボレーションには、多様な評価指標を選択し、態度を測定し、認知バイアスに対処するワークフローを設計する、人間の心理学の考慮が必要である。
関連論文リスト
- When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration [79.69935257008467]
我々は,人間とAIの知識伝達能力に関する概念的かつ実験的フレームワークである知識統合と伝達評価(KITE)を紹介する。
最初の大規模人間実験(N=118)を行い,その測定を行った。
2段階のセットアップでは、まずAIを使って問題解決戦略を思いつき、その後独立してソリューションを実装し、モデル説明が人間の理解に与える影響を分離します。
論文 参考訳(メタデータ) (2025-06-05T20:48:16Z) - On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。
人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文 参考訳(メタデータ) (2025-02-27T20:21:36Z) - Engaging with AI: How Interface Design Shapes Human-AI Collaboration in High-Stakes Decision-Making [8.948482790298645]
各種意思決定支援機構がユーザエンゲージメント,信頼,人間とAIの協調タスクパフォーマンスに与える影響について検討する。
その結果,AIの信頼性レベルやテキスト説明,パフォーマンス視覚化などのメカニズムにより,人間とAIの協調作業性能が向上することが判明した。
論文 参考訳(メタデータ) (2025-01-28T02:03:00Z) - How Performance Pressure Influences AI-Assisted Decision Making [52.997197698288936]
我々は、プレッシャーと説明可能なAI(XAI)技術がAIアドバイステイク行動とどのように相互作用するかを示す。
我々の結果は、圧力とXAIの異なる組み合わせで複雑な相互作用効果を示し、AIアドバイスの行動を改善するか、悪化させるかのどちらかを示す。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - To Err Is AI! Debugging as an Intervention to Facilitate Appropriate Reliance on AI Systems [11.690126756498223]
最適な人間とAIのコラボレーションのためのビジョンは、人間のAIシステムへの「適切な依存」を必要とする。
実際には、アウト・オブ・ディストリビューションデータにおける機械学習モデルの性能格差は、データセット固有のパフォーマンスフィードバックを信頼できないものにしている。
論文 参考訳(メタデータ) (2024-09-22T09:43:27Z) - Improving Human-AI Collaboration With Descriptions of AI Behavior [14.904401331154062]
人々はAIシステムを使って意思決定を改善するが、しばしばAIの予測を過度に、あるいは過度に予測し、手伝わなかったよりも悪いパフォーマンスをする。
人々がAIアシスタントを適切に頼りにするために、行動記述を示すことを提案する。
論文 参考訳(メタデータ) (2023-01-06T00:33:08Z) - Advancing Human-AI Complementarity: The Impact of User Expertise and
Algorithmic Tuning on Joint Decision Making [10.890854857970488]
ユーザのドメイン知識、AIシステムのメンタルモデル、レコメンデーションへの信頼など、多くの要因がヒューマンAIチームの成功に影響を与える可能性がある。
本研究は,非自明な血管ラベル作成作業において,血管が流れているか停止しているかを被験者に示すことを目的とした。
以上の結果から,AI-Assistantからの推薦はユーザの意思決定に役立つが,AIに対するユーザベースラインのパフォーマンスや,AIエラー型の相補的チューニングといった要因は,チーム全体のパフォーマンスに大きな影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2022-08-16T21:39:58Z) - Deciding Fast and Slow: The Role of Cognitive Biases in AI-assisted
Decision-making [46.625616262738404]
我々は、認知科学の分野からの知識を用いて、人間とAIの協調的な意思決定設定における認知バイアスを考慮します。
私たちは、人間とAIのコラボレーションでよく見られるバイアスであるバイアスのアンカーに特に焦点を当てています。
論文 参考訳(メタデータ) (2020-10-15T22:25:41Z) - Proxy Tasks and Subjective Measures Can Be Misleading in Evaluating
Explainable AI Systems [14.940404609343432]
我々は、XAIシステムを評価するための2つの現在一般的な手法を評価した。
その結果,プロキシタスクによる評価は,実際の意思決定タスクによる評価結果の予測には至らなかった。
我々の研究は、誤解を招く評価手法を採用することで、人間やAI単独よりも確実にパフォーマンスを発揮できる人間とAIチームの開発に向けた進歩が、必然的に鈍化している可能性があることを示唆している。
論文 参考訳(メタデータ) (2020-01-22T22:14:28Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。