Fugu-MT 論文翻訳(概要): AI Debate Aids Assessment of Controversial Claims

論文の概要: AI Debate Aids Assessment of Controversial Claims

arxiv url: http://arxiv.org/abs/2506.02175v1
Date: Mon, 02 Jun 2025 19:01:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.985633
Title: AI Debate Aids Assessment of Controversial Claims
Title（参考訳）: AIが論争のクレームの評価に役立てる
Authors: Salman Rahman, Sheriff Issaka, Ashima Suvarna, Genglin Liu, James Shiffer, Jaeyoung Lee, Md Rizwan Parvez, Hamid Palangi, Shi Feng, Nanyun Peng, Yejin Choi, Julian Michael, Liwei Jiang, Saadia Gabriel,
Abstract要約: AIの議論が、新型コロナウイルス(COVID-19)の事実性主張に反対する2つのAIシステムを議論することで、偏見のある裁判官を真実に導くことができるかどうかを調査する。人間の研究では、2つのAIアドバイザシステムが対立するエビデンスに基づく議論を提示し、判定精度と信頼性の校正を改善していることがわかった。我々のAIジャッジスタディでは、人間のようなペルソナを持つAIジャッジが、人間のジャッジ(70.1%)とデフォルトのAIジャッジ(69.8%)よりさらに高い精度(78.5%)を達成することが分かりました。
参考スコア（独自算出の注目度）: 86.47978525513236
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As AI grows more powerful, it will increasingly shape how we understand the world. But with this influence comes the risk of amplifying misinformation and deepening social divides-especially on consequential topics like public health where factual accuracy directly impacts well-being. Scalable Oversight aims to ensure AI truthfulness by enabling humans to supervise systems that may exceed human capabilities--yet humans themselves hold different beliefs and biases that impair their judgment. We study whether AI debate can guide biased judges toward the truth by having two AI systems debate opposing sides of controversial COVID-19 factuality claims where people hold strong prior beliefs. We conduct two studies: one with human judges holding either mainstream or skeptical beliefs evaluating factuality claims through AI-assisted debate or consultancy protocols, and a second examining the same problem with personalized AI judges designed to mimic these different human belief systems. In our human study, we find that debate-where two AI advisor systems present opposing evidence-based arguments-consistently improves judgment accuracy and confidence calibration, outperforming consultancy with a single-advisor system by 10% overall. The improvement is most significant for judges with mainstream beliefs (+15.2% accuracy), though debate also helps skeptical judges who initially misjudge claims move toward accurate views (+4.7% accuracy). In our AI judge study, we find that AI judges with human-like personas achieve even higher accuracy (78.5%) than human judges (70.1%) and default AI judges without personas (69.8%), suggesting their potential for supervising frontier AI models. These findings highlight AI debate as a promising path toward scalable, bias-resilient oversight--leveraging both diverse human and AI judgments to move closer to truth in contested domains.
Abstract（参考訳）: AIがより強力になるにつれて、世界を理解する方法がますます形作られていくでしょう。しかし、この影響により、誤報を増幅し、社会の分断を深めるリスクがもたらされる。 Scalable Oversightは、人間が人間の能力を超えたシステムを監督できるようにすることで、AIの真正性を確保することを目的としている。われわれは、AIの議論が偏見のある裁判官を真実に導くことができるかどうかを、2つのAIシステムで議論し、人々が強い事前の信念を持っているという、議論の的になっている新型コロナウイルスの事実性主張の側面に反論することによって検討する。ひとつは、AI支援の議論やコンサルティングプロトコルを通じて事実性主張を評価する、主流または懐疑的な信念を持つ人間の裁判官と、もうひとつは、これらの異なる人間の信念システムを模倣するように設計されたパーソナライズされたAI裁判官で同じ問題を調査する。人間の研究では、2つのAIアドバイザシステムが対立するエビデンスベースの議論を提示し、判定精度と信頼性の校正を継続的に改善し、単一のアドバイザシステムとの相談を総合的に10%上回っていることが判明した。この改善は、主流の信念を持つ裁判官(+15.2%の正確さ)にとって最も重要であるが、当初は正確な見解(+4.7%の正確さ)を誤認していた懐疑的な裁判官にも役立つ。我々のAIジャッジスタディでは、人間のようなペルソナを持つAIジャッジが、人間のジャッジ(70.1%)とデフォルトのAIジャッジ(69.8%)よりさらに高い精度(78.5%)を達成することを発見し、フロンティアAIモデルの監督の可能性を示している。これらの調査結果は、AIの議論を、スケーラブルでバイアスの強い監視への有望な道として強調している。

関連論文リスト

The Silicon Reasonable Person: Can AI Predict How Ordinary People Judge Reasonableness? [0.0]
本稿では,大規模言語モデル(LLM)が人間の合理的性判断を駆動するパターンを識別できることを考察する。特定のモデルが表面レベルの応答だけでなく,その基盤となる決定的アーキテクチャも捉えていることを示す。裁判官はより広いパターンに対して直感を調整でき、議員は政策解釈をテストでき、資源制約のある訴訟員は議論の受理をプレビューできる。
論文参考訳（メタデータ） (2025-08-04T06:19:45Z)
Subjective Experience in AI Systems: What Do AI Researchers and the Public Believe? [0.42131793931438133]
582人のAI研究者と838人の米国代表者を対象に、主観的経験を持つAIシステムの潜在的な発展に関する見解を調査した。特定の日にそのようなシステムが存在する確率を見積もると、中央値の回答は、2024年までに1%(AI研究者)、5%(パブリック)となった。一般市民の中央値のメンバーは、主観的経験を持つAIシステムが、中央値のAI研究者(10%)よりも(25%)存在しない可能性が高いと考えた。
論文参考訳（メタデータ） (2025-06-13T16:53:28Z)
Must Read: A Systematic Survey of Computational Persuasion [60.83151988635103]
AI駆動の説得は、有益なアプリケーションに活用することができるが、操作と非倫理的な影響を通じて脅威を引き起こす。本調査では,AIによる説得の安全性,公平性,有効性を高めるための今後の研究方針について概説する。
論文参考訳（メタデータ） (2025-05-12T17:26:31Z)
Trustworthy and Responsible AI for Human-Centric Autonomous Decision-Making Systems [2.444630714797783]
我々は、AIバイアス、定義、検出と緩和の方法、およびバイアスを評価するメトリクスの複雑さをレビューし、議論する。また、人間中心の意思決定のさまざまな領域におけるAIの信頼性と広範な適用に関して、オープンな課題についても論じる。
論文参考訳（メタデータ） (2024-08-28T06:04:25Z)
Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文参考訳（メタデータ） (2024-07-30T21:34:04Z)
On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文参考訳（メタデータ） (2024-07-05T16:29:15Z)
Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-04-16T11:22:59Z)
Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文参考訳（メタデータ） (2021-07-12T14:21:46Z)
Effect of Confidence and Explanation on Accuracy and Trust Calibration in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文参考訳（メタデータ） (2020-01-07T15:33:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。