論文の概要: AI Debate Aids Assessment of Controversial Claims
- arxiv url: http://arxiv.org/abs/2506.02175v1
- Date: Mon, 02 Jun 2025 19:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.985633
- Title: AI Debate Aids Assessment of Controversial Claims
- Title(参考訳): AIが論争のクレームの評価に役立てる
- Authors: Salman Rahman, Sheriff Issaka, Ashima Suvarna, Genglin Liu, James Shiffer, Jaeyoung Lee, Md Rizwan Parvez, Hamid Palangi, Shi Feng, Nanyun Peng, Yejin Choi, Julian Michael, Liwei Jiang, Saadia Gabriel,
- Abstract要約: AIの議論が、新型コロナウイルス(COVID-19)の事実性主張に反対する2つのAIシステムを議論することで、偏見のある裁判官を真実に導くことができるかどうかを調査する。
人間の研究では、2つのAIアドバイザシステムが対立するエビデンスに基づく議論を提示し、判定精度と信頼性の校正を改善していることがわかった。
我々のAIジャッジスタディでは、人間のようなペルソナを持つAIジャッジが、人間のジャッジ(70.1%)とデフォルトのAIジャッジ(69.8%)よりさらに高い精度(78.5%)を達成することが分かりました。
- 参考スコア(独自算出の注目度): 86.47978525513236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI grows more powerful, it will increasingly shape how we understand the world. But with this influence comes the risk of amplifying misinformation and deepening social divides-especially on consequential topics like public health where factual accuracy directly impacts well-being. Scalable Oversight aims to ensure AI truthfulness by enabling humans to supervise systems that may exceed human capabilities--yet humans themselves hold different beliefs and biases that impair their judgment. We study whether AI debate can guide biased judges toward the truth by having two AI systems debate opposing sides of controversial COVID-19 factuality claims where people hold strong prior beliefs. We conduct two studies: one with human judges holding either mainstream or skeptical beliefs evaluating factuality claims through AI-assisted debate or consultancy protocols, and a second examining the same problem with personalized AI judges designed to mimic these different human belief systems. In our human study, we find that debate-where two AI advisor systems present opposing evidence-based arguments-consistently improves judgment accuracy and confidence calibration, outperforming consultancy with a single-advisor system by 10% overall. The improvement is most significant for judges with mainstream beliefs (+15.2% accuracy), though debate also helps skeptical judges who initially misjudge claims move toward accurate views (+4.7% accuracy). In our AI judge study, we find that AI judges with human-like personas achieve even higher accuracy (78.5%) than human judges (70.1%) and default AI judges without personas (69.8%), suggesting their potential for supervising frontier AI models. These findings highlight AI debate as a promising path toward scalable, bias-resilient oversight--leveraging both diverse human and AI judgments to move closer to truth in contested domains.
- Abstract(参考訳): AIがより強力になるにつれて、世界を理解する方法がますます形作られていくでしょう。
しかし、この影響により、誤報を増幅し、社会の分断を深めるリスクがもたらされる。
Scalable Oversightは、人間が人間の能力を超えたシステムを監督できるようにすることで、AIの真正性を確保することを目的としている。
われわれは、AIの議論が偏見のある裁判官を真実に導くことができるかどうかを、2つのAIシステムで議論し、人々が強い事前の信念を持っているという、議論の的になっている新型コロナウイルスの事実性主張の側面に反論することによって検討する。
ひとつは、AI支援の議論やコンサルティングプロトコルを通じて事実性主張を評価する、主流または懐疑的な信念を持つ人間の裁判官と、もうひとつは、これらの異なる人間の信念システムを模倣するように設計されたパーソナライズされたAI裁判官で同じ問題を調査する。
人間の研究では、2つのAIアドバイザシステムが対立するエビデンスベースの議論を提示し、判定精度と信頼性の校正を継続的に改善し、単一のアドバイザシステムとの相談を総合的に10%上回っていることが判明した。
この改善は、主流の信念を持つ裁判官(+15.2%の正確さ)にとって最も重要であるが、当初は正確な見解(+4.7%の正確さ)を誤認していた懐疑的な裁判官にも役立つ。
我々のAIジャッジスタディでは、人間のようなペルソナを持つAIジャッジが、人間のジャッジ(70.1%)とデフォルトのAIジャッジ(69.8%)よりさらに高い精度(78.5%)を達成することを発見し、フロンティアAIモデルの監督の可能性を示している。
これらの調査結果は、AIの議論を、スケーラブルでバイアスの強い監視への有望な道として強調している。
関連論文リスト
- Trustworthy and Responsible AI for Human-Centric Autonomous Decision-Making Systems [2.444630714797783]
我々は、AIバイアス、定義、検出と緩和の方法、およびバイアスを評価するメトリクスの複雑さをレビューし、議論する。
また、人間中心の意思決定のさまざまな領域におけるAIの信頼性と広範な適用に関して、オープンな課題についても論じる。
論文 参考訳(メタデータ) (2024-08-28T06:04:25Z) - Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。