論文の概要: AI Debate Aids Assessment of Controversial Claims
- arxiv url: http://arxiv.org/abs/2506.02175v1
- Date: Mon, 02 Jun 2025 19:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.985633
- Title: AI Debate Aids Assessment of Controversial Claims
- Title(参考訳): AIが論争のクレームの評価に役立てる
- Authors: Salman Rahman, Sheriff Issaka, Ashima Suvarna, Genglin Liu, James Shiffer, Jaeyoung Lee, Md Rizwan Parvez, Hamid Palangi, Shi Feng, Nanyun Peng, Yejin Choi, Julian Michael, Liwei Jiang, Saadia Gabriel,
- Abstract要約: AIの議論が、新型コロナウイルス(COVID-19)の事実性主張に反対する2つのAIシステムを議論することで、偏見のある裁判官を真実に導くことができるかどうかを調査する。
人間の研究では、2つのAIアドバイザシステムが対立するエビデンスに基づく議論を提示し、判定精度と信頼性の校正を改善していることがわかった。
我々のAIジャッジスタディでは、人間のようなペルソナを持つAIジャッジが、人間のジャッジ(70.1%)とデフォルトのAIジャッジ(69.8%)よりさらに高い精度(78.5%)を達成することが分かりました。
- 参考スコア(独自算出の注目度): 86.47978525513236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI grows more powerful, it will increasingly shape how we understand the world. But with this influence comes the risk of amplifying misinformation and deepening social divides-especially on consequential topics like public health where factual accuracy directly impacts well-being. Scalable Oversight aims to ensure AI truthfulness by enabling humans to supervise systems that may exceed human capabilities--yet humans themselves hold different beliefs and biases that impair their judgment. We study whether AI debate can guide biased judges toward the truth by having two AI systems debate opposing sides of controversial COVID-19 factuality claims where people hold strong prior beliefs. We conduct two studies: one with human judges holding either mainstream or skeptical beliefs evaluating factuality claims through AI-assisted debate or consultancy protocols, and a second examining the same problem with personalized AI judges designed to mimic these different human belief systems. In our human study, we find that debate-where two AI advisor systems present opposing evidence-based arguments-consistently improves judgment accuracy and confidence calibration, outperforming consultancy with a single-advisor system by 10% overall. The improvement is most significant for judges with mainstream beliefs (+15.2% accuracy), though debate also helps skeptical judges who initially misjudge claims move toward accurate views (+4.7% accuracy). In our AI judge study, we find that AI judges with human-like personas achieve even higher accuracy (78.5%) than human judges (70.1%) and default AI judges without personas (69.8%), suggesting their potential for supervising frontier AI models. These findings highlight AI debate as a promising path toward scalable, bias-resilient oversight--leveraging both diverse human and AI judgments to move closer to truth in contested domains.
- Abstract(参考訳): AIがより強力になるにつれて、世界を理解する方法がますます形作られていくでしょう。
しかし、この影響により、誤報を増幅し、社会の分断を深めるリスクがもたらされる。
Scalable Oversightは、人間が人間の能力を超えたシステムを監督できるようにすることで、AIの真正性を確保することを目的としている。
われわれは、AIの議論が偏見のある裁判官を真実に導くことができるかどうかを、2つのAIシステムで議論し、人々が強い事前の信念を持っているという、議論の的になっている新型コロナウイルスの事実性主張の側面に反論することによって検討する。
ひとつは、AI支援の議論やコンサルティングプロトコルを通じて事実性主張を評価する、主流または懐疑的な信念を持つ人間の裁判官と、もうひとつは、これらの異なる人間の信念システムを模倣するように設計されたパーソナライズされたAI裁判官で同じ問題を調査する。
人間の研究では、2つのAIアドバイザシステムが対立するエビデンスベースの議論を提示し、判定精度と信頼性の校正を継続的に改善し、単一のアドバイザシステムとの相談を総合的に10%上回っていることが判明した。
この改善は、主流の信念を持つ裁判官(+15.2%の正確さ)にとって最も重要であるが、当初は正確な見解(+4.7%の正確さ)を誤認していた懐疑的な裁判官にも役立つ。
我々のAIジャッジスタディでは、人間のようなペルソナを持つAIジャッジが、人間のジャッジ(70.1%)とデフォルトのAIジャッジ(69.8%)よりさらに高い精度(78.5%)を達成することを発見し、フロンティアAIモデルの監督の可能性を示している。
これらの調査結果は、AIの議論を、スケーラブルでバイアスの強い監視への有望な道として強調している。
関連論文リスト
- AI Debaters are More Persuasive when Arguing in Alignment with Their Own Beliefs [0.13525723298325706]
我々は主観的な質問に議論を適用し、実験の前に大きな言語モデルの事前の信念を明示的に測定する。
我々は2つの議論プロトコルを逐次かつ同時に実装し、潜在的体系的バイアスを評価する。
本研究の主目的は, モデルが従来の信念よりも, 判断ペルソナと整合した姿勢を擁護する傾向にあることにある。
論文 参考訳(メタデータ) (2025-10-15T05:02:13Z) - Biased AI improves human decision-making but reduces trust [0.8621608193534839]
現在のAIシステムは、イデオロギー的中立を強制することによってリスクを最小化するが、これは人間の意思決定における認知的関与を抑制することによって自動化バイアスをもたらす可能性がある。
我々は2500人の参加者とともにランダム化試験を行い、文化に偏ったAIが人間の意思決定を促進するかどうかを検証した。
論文 参考訳(メタデータ) (2025-08-12T19:20:43Z) - The Silicon Reasonable Person: Can AI Predict How Ordinary People Judge Reasonableness? [0.0]
本稿では,大規模言語モデル(LLM)が人間の合理的性判断を駆動するパターンを識別できることを考察する。
特定のモデルが表面レベルの応答だけでなく,その基盤となる決定的アーキテクチャも捉えていることを示す。
裁判官はより広いパターンに対して直感を調整でき、議員は政策解釈をテストでき、資源制約のある訴訟員は議論の受理をプレビューできる。
論文 参考訳(メタデータ) (2025-08-04T06:19:45Z) - Subjective Experience in AI Systems: What Do AI Researchers and the Public Believe? [0.42131793931438133]
582人のAI研究者と838人の米国代表者を対象に、主観的経験を持つAIシステムの潜在的な発展に関する見解を調査した。
特定の日にそのようなシステムが存在する確率を見積もると、中央値の回答は、2024年までに1%(AI研究者)、5%(パブリック)となった。
一般市民の中央値のメンバーは、主観的経験を持つAIシステムが、中央値のAI研究者(10%)よりも(25%)存在しない可能性が高いと考えた。
論文 参考訳(メタデータ) (2025-06-13T16:53:28Z) - Must Read: A Systematic Survey of Computational Persuasion [60.83151988635103]
AI駆動の説得は、有益なアプリケーションに活用することができるが、操作と非倫理的な影響を通じて脅威を引き起こす。
本調査では,AIによる説得の安全性,公平性,有効性を高めるための今後の研究方針について概説する。
論文 参考訳(メタデータ) (2025-05-12T17:26:31Z) - From Intuition to Understanding: Using AI Peers to Overcome Physics Misconceptions [8.60890432697274]
我々は、学生がニュートン力学の概念に関する基本的な物理学的誤解を正すのに役立つAI「ピア」を設計した。
165人の学生によるランダム化対照試験では、AI Peerと標的となる対話を行った学生はテスト後のスコアを平均10.5ポイント上回った。
論文 参考訳(メタデータ) (2025-04-01T04:09:13Z) - Trustworthy and Responsible AI for Human-Centric Autonomous Decision-Making Systems [2.444630714797783]
我々は、AIバイアス、定義、検出と緩和の方法、およびバイアスを評価するメトリクスの複雑さをレビューし、議論する。
また、人間中心の意思決定のさまざまな領域におけるAIの信頼性と広範な適用に関して、オープンな課題についても論じる。
論文 参考訳(メタデータ) (2024-08-28T06:04:25Z) - Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Debate Helps Supervise Unreliable Experts [33.03555781137954]
信頼できない2人の専門家の議論は、専門家でない裁判官が真実をより確実に特定する助けになることを示す。
1人の専門家が、半分の時間で正しい答えを1つだけ主張する、基準となる議論と比較すると、議論ははるかに効果が高いことが分かります。
これらの結果は、議論がますます有能で信頼性の低いAIシステムを監視するための有望なアプローチであることを示している。
論文 参考訳(メタデータ) (2023-11-15T05:05:40Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。