論文の概要: Human-AI Complementarity: A Goal for Amplified Oversight
- arxiv url: http://arxiv.org/abs/2510.26518v1
- Date: Thu, 30 Oct 2025 14:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.850261
- Title: Human-AI Complementarity: A Goal for Amplified Oversight
- Title(参考訳): 人間とAIの相補性 - 監視を増幅するための目標
- Authors: Rishub Jain, Sophie Bridgers, Lili Janzer, Rory Greig, Tian Huey Teh, Vladimir Mikulik,
- Abstract要約: 本稿では,人間の監視の質を向上させるためにAIを活用する方法について検討する。
AIレーティングと人間のレーティングをAIレーダの信頼性に基づいて組み合わせた方が、どちらも頼りにしているよりも優れていることが分かりました。
- 参考スコア(独自算出の注目度): 2.7005766101211663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human feedback is critical for aligning AI systems to human values. As AI capabilities improve and AI is used to tackle more challenging tasks, verifying quality and safety becomes increasingly challenging. This paper explores how we can leverage AI to improve the quality of human oversight. We focus on an important safety problem that is already challenging for humans: fact-verification of AI outputs. We find that combining AI ratings and human ratings based on AI rater confidence is better than relying on either alone. Giving humans an AI fact-verification assistant further improves their accuracy, but the type of assistance matters. Displaying AI explanation, confidence, and labels leads to over-reliance, but just showing search results and evidence fosters more appropriate trust. These results have implications for Amplified Oversight -- the challenge of combining humans and AI to supervise AI systems even as they surpass human expert performance.
- Abstract(参考訳): 人間のフィードバックは、AIシステムと人間の価値の整合に不可欠である。
AI能力が向上し、AIがより困難なタスクに対処するために使用されるようになると、品質と安全性の検証はますます困難になる。
本稿では,人間の監視の質を向上させるためにAIを活用する方法について検討する。
私たちは、AI出力の事実検証という、すでに人間にとって難しい重要な安全問題に焦点を当てています。
AIレーティングと人間のレーティングをAIレーダの信頼性に基づいて組み合わせた方が、どちらも頼りにしているよりも優れていることが分かりました。
人間にAIの事実検証アシスタントを与えると、その精度が向上するが、支援の種類は重要だ。
AIの説明、信頼、ラベルの表示は、過度な信頼につながるが、検索結果と証拠を示すだけで、より適切な信頼がもたらされる。
これらの結果は、Amplified Oversight -- 人間とAIを組み合わせてAIシステムを監督するという課題 -- に影響を及ぼす。
関連論文リスト
- Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - Bending the Automation Bias Curve: A Study of Human and AI-based
Decision Making in National Security Contexts [0.0]
私たちは、AIに関する背景知識とAIに対する信頼の関係、自動化バイアスの確率に影響を与える他の要因との相互作用について理論を立てています。
我々は、AI産業のレベルが異なる9カ国の9000人の成人の代表例を対象に、事前登録されたタスク識別実験でテストを行った。
論文 参考訳(メタデータ) (2023-06-28T18:57:36Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Positive AI: Key Challenges in Designing Artificial Intelligence for
Wellbeing [0.5461938536945723]
多くの人々は、AIが自分の生活に与える影響をますます心配しています。
AIの進歩を確実にするために、一部の研究者はAIを統治する鍵となる目的として「幸福」を提案した。
この記事では、幸福のためにAIを設計する際の重要な課題に対処する。
論文 参考訳(メタデータ) (2023-04-12T12:43:00Z) - Improving Human-AI Collaboration With Descriptions of AI Behavior [14.904401331154062]
人々はAIシステムを使って意思決定を改善するが、しばしばAIの予測を過度に、あるいは過度に予測し、手伝わなかったよりも悪いパフォーマンスをする。
人々がAIアシスタントを適切に頼りにするために、行動記述を示すことを提案する。
論文 参考訳(メタデータ) (2023-01-06T00:33:08Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。