論文の概要: AI Debate Aids Assessment of Controversial Claims
- arxiv url: http://arxiv.org/abs/2506.02175v2
- Date: Wed, 29 Oct 2025 18:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.333857
- Title: AI Debate Aids Assessment of Controversial Claims
- Title(参考訳): AIが論争のクレームの評価に役立てる
- Authors: Salman Rahman, Sheriff Issaka, Ashima Suvarna, Genglin Liu, James Shiffer, Jaeyoung Lee, Md Rizwan Parvez, Hamid Palangi, Shi Feng, Nanyun Peng, Yejin Choi, Julian Michael, Liwei Jiang, Saadia Gabriel,
- Abstract要約: 我々は、AI論争が、議論の的になっている事実性主張の側面に対立する2つのAIシステムを議論させることで、偏見のある裁判官を真実に導くことができるかどうかを調査する。
研究Iでは、議論は人間の判断精度と信頼性の校正を継続的に改善し、コンサルタントを上回ります。
研究IIでは、人間のような人格を持つAI裁判官は、人格を持たない人格(70.1%)やデフォルトのAI裁判官(69.8%)よりも高い精度(78.5%)を達成する。
これらの調査結果は、AIの議論が、競争対象ドメインにおけるスケーラブルでバイアス耐性のある監視への有望な道であることを示している。
- 参考スコア(独自算出の注目度): 73.8907110799657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI grows more powerful, it will increasingly shape how we understand the world. But with this influence comes the risk of amplifying misinformation and deepening social divides-especially on consequential topics where factual accuracy directly impacts well-being. Scalable Oversight aims to ensure AI systems remain truthful even when their capabilities exceed those of their evaluators. Yet when humans serve as evaluators, their own beliefs and biases can impair judgment. We study whether AI debate can guide biased judges toward the truth by having two AI systems debate opposing sides of controversial factuality claims on COVID-19 and climate change where people hold strong prior beliefs. We conduct two studies. Study I recruits human judges with either mainstream or skeptical beliefs who evaluate claims through two protocols: debate (interaction with two AI advisors arguing opposing sides) or consultancy (interaction with a single AI advisor). Study II uses AI judges with and without human-like personas to evaluate the same protocols. In Study I, debate consistently improves human judgment accuracy and confidence calibration, outperforming consultancy by 4-10% across COVID-19 and climate change claims. The improvement is most significant for judges with mainstream beliefs (up to +15.2% accuracy on COVID-19 claims), though debate also helps skeptical judges who initially misjudge claims move toward accurate views (+4.7% accuracy). In Study II, AI judges with human-like personas achieve even higher accuracy (78.5%) than human judges (70.1%) and default AI judges without personas (69.8%), suggesting their potential for supervising frontier AI models. These findings highlight AI debate as a promising path toward scalable, bias-resilient oversight in contested domains.
- Abstract(参考訳): AIがより強力になるにつれて、世界を理解する方法がますます形作られていくでしょう。
しかし、この影響により、誤報を増幅し、社会的分断を深めるリスクがもたらされる。
Scalable Oversightは、能力が評価対象を超えても、AIシステムが真実のままであることを保証することを目的としている。
しかし、人間が評価役を務めると、彼らの信念や偏見は判断を損なう可能性がある。
2つのAIシステムが、人々が強い事前の信念を持っている新型コロナウイルスと気候変動に関する議論の事実性主張の側面に反対して議論することで、AIの議論が、偏見のある裁判官を真実に導くことができるかどうかを調査する。
私たちは2つの研究を行います。
Study I recruits human judges with mainstream or skeptical beliefs who evaluate claim through two protocol: debate (interaction with two AI Advisors against other side) or consultancy (interaction with a single AI Advisor)。
研究IIでは、人間のようなペルソナを持たないAI裁判官を使って、同じプロトコルを評価している。
研究Iでは、人間の判断精度と信頼性の校正を一貫して改善し、新型コロナウイルス(COVID-19)や気候変動の主張に対して、コンサルタントを4-10%上回っている。
この改善は、主流の信念を持つ裁判官(新型コロナウイルス(COVID-19)の主張では+15.2%の精度)にとって最も重要であるが、当初は正確な見解(+4.7%の正確さ)を誤認していた懐疑的な審査員にも有効である。
研究IIでは、人間のような人格を持つAI裁判官は、人格を持たない人格(70.1%)やデフォルトのAI裁判官(69.8%)よりも高い精度(78.5%)を達成し、フロンティアAIモデルを監督する可能性を示している。
これらの調査結果は、AIの議論が、競争対象ドメインにおけるスケーラブルでバイアス耐性のある監視への有望な道であることを示している。
関連論文リスト
- The Silicon Reasonable Person: Can AI Predict How Ordinary People Judge Reasonableness? [0.0]
本稿では,大規模言語モデル(LLM)が人間の合理的性判断を駆動するパターンを識別できることを考察する。
特定のモデルが表面レベルの応答だけでなく,その基盤となる決定的アーキテクチャも捉えていることを示す。
裁判官はより広いパターンに対して直感を調整でき、議員は政策解釈をテストでき、資源制約のある訴訟員は議論の受理をプレビューできる。
論文 参考訳(メタデータ) (2025-08-04T06:19:45Z) - Subjective Experience in AI Systems: What Do AI Researchers and the Public Believe? [0.42131793931438133]
582人のAI研究者と838人の米国代表者を対象に、主観的経験を持つAIシステムの潜在的な発展に関する見解を調査した。
特定の日にそのようなシステムが存在する確率を見積もると、中央値の回答は、2024年までに1%(AI研究者)、5%(パブリック)となった。
一般市民の中央値のメンバーは、主観的経験を持つAIシステムが、中央値のAI研究者(10%)よりも(25%)存在しない可能性が高いと考えた。
論文 参考訳(メタデータ) (2025-06-13T16:53:28Z) - Must Read: A Systematic Survey of Computational Persuasion [60.83151988635103]
AI駆動の説得は、有益なアプリケーションに活用することができるが、操作と非倫理的な影響を通じて脅威を引き起こす。
本調査では,AIによる説得の安全性,公平性,有効性を高めるための今後の研究方針について概説する。
論文 参考訳(メタデータ) (2025-05-12T17:26:31Z) - Trustworthy and Responsible AI for Human-Centric Autonomous Decision-Making Systems [2.444630714797783]
我々は、AIバイアス、定義、検出と緩和の方法、およびバイアスを評価するメトリクスの複雑さをレビューし、議論する。
また、人間中心の意思決定のさまざまな領域におけるAIの信頼性と広範な適用に関して、オープンな課題についても論じる。
論文 参考訳(メタデータ) (2024-08-28T06:04:25Z) - Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。