論文の概要: AI Debaters are More Persuasive when Arguing in Alignment with Their Own Beliefs
- arxiv url: http://arxiv.org/abs/2510.13912v1
- Date: Wed, 15 Oct 2025 05:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.535436
- Title: AI Debaters are More Persuasive when Arguing in Alignment with Their Own Beliefs
- Title(参考訳): AIのデバタは、自分の信念に従えばより説得力がある
- Authors: María Victoria Carro, Denise Alejandra Mester, Facundo Nieto, Oscar Agustín Stanchi, Guido Ernesto Bergman, Mario Alejandro Leiva, Eitan Sprejer, Luca Nicolás Forziati Gangi, Francisca Gauna Selasco, Juan Gustavo Corvalán, Gerardo I. Simari, María Vanina Martinez,
- Abstract要約: 我々は主観的な質問に議論を適用し、実験の前に大きな言語モデルの事前の信念を明示的に測定する。
我々は2つの議論プロトコルを逐次かつ同時に実装し、潜在的体系的バイアスを評価する。
本研究の主目的は, モデルが従来の信念よりも, 判断ペルソナと整合した姿勢を擁護する傾向にあることにある。
- 参考スコア(独自算出の注目度): 0.13525723298325706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The core premise of AI debate as a scalable oversight technique is that it is harder to lie convincingly than to refute a lie, enabling the judge to identify the correct position. Yet, existing debate experiments have relied on datasets with ground truth, where lying is reduced to defending an incorrect proposition. This overlooks a subjective dimension: lying also requires the belief that the claim defended is false. In this work, we apply debate to subjective questions and explicitly measure large language models' prior beliefs before experiments. Debaters were asked to select their preferred position, then presented with a judge persona deliberately designed to conflict with their identified priors. This setup tested whether models would adopt sycophantic strategies, aligning with the judge's presumed perspective to maximize persuasiveness, or remain faithful to their prior beliefs. We implemented and compared two debate protocols, sequential and simultaneous, to evaluate potential systematic biases. Finally, we assessed whether models were more persuasive and produced higher-quality arguments when defending positions consistent with their prior beliefs versus when arguing against them. Our main findings show that models tend to prefer defending stances aligned with the judge persona rather than their prior beliefs, sequential debate introduces significant bias favoring the second debater, models are more persuasive when defending positions aligned with their prior beliefs, and paradoxically, arguments misaligned with prior beliefs are rated as higher quality in pairwise comparison. These results can inform human judges to provide higher-quality training signals and contribute to more aligned AI systems, while revealing important aspects of human-AI interaction regarding persuasion dynamics in language models.
- Abstract(参考訳): スケーラブルな監視技術としてのAI論争の中核的な前提は、嘘を論じるよりも説得力のある嘘をつくことが難しく、裁判官が正しい位置を特定できることである。
しかし、既存の議論実験では、嘘は誤った命題を守るために減らされるという根拠のあるデータセットに頼っている。
これは主観的な次元を見落としている:嘘をつくには、主張が偽であるという信念も必要である。
本研究では、主観的な質問に議論を適用し、実験の前に大規模言語モデルの事前の信念を明示的に測定する。
デバッターは好みのポジションを選ぶよう求められ、その後、識別された前任者と衝突するように意図的に設計された裁判官のペルソナを提示した。
この設定は、モデルがサイコファンティクス戦略を採用するかどうかを検証し、説得力を最大化するために裁判官が想定する視点と一致しているか、または以前の信念に忠実であるかを確認した。
我々は2つの議論プロトコルを逐次的および同時に実装し、潜在的体系的バイアスを評価した。
最後に、モデルがより説得力があり、より高品質な議論を生み出しているかどうかを評価した。
本研究の主目的は, モデルが事前の信念よりも判断人格に整合した立場を擁護する傾向にあること, 逐次的な議論は第2の議論者を支持する重要なバイアスを導入し, モデルが先行の信念に整合した立場を擁護する場合, モデルの方が説得力が高いこと, パラドックス的には, 先行の信念に整合した議論が相互比較において高い品質と評価されていること, である。
これらの結果は、人間の判断に対して、高品質なトレーニング信号を提供し、より整合したAIシステムに貢献すると同時に、言語モデルにおける説得力学に関する人間とAIの相互作用の重要な側面を明らかにします。
関連論文リスト
- AI Debate Aids Assessment of Controversial Claims [86.47978525513236]
AIの議論が、新型コロナウイルス(COVID-19)の事実性主張に反対する2つのAIシステムを議論することで、偏見のある裁判官を真実に導くことができるかどうかを調査する。
人間の研究では、2つのAIアドバイザシステムが対立するエビデンスに基づく議論を提示し、判定精度と信頼性の校正を改善していることがわかった。
我々のAIジャッジスタディでは、人間のようなペルソナを持つAIジャッジが、人間のジャッジ(70.1%)とデフォルトのAIジャッジ(69.8%)よりさらに高い精度(78.5%)を達成することが分かりました。
論文 参考訳(メタデータ) (2025-06-02T19:01:53Z) - Debating for Better Reasoning: An Unsupervised Multimodal Approach [56.74157117060815]
議論のパラダイムをマルチモーダルな設定に拡張し、より弱いモデルがより強力なモデルの性能を監督し、強化する可能性を探る。
視覚的質問応答 (VQA) に焦点をあて, 2つの「目に見える」専門家の視覚言語モデルが解答について議論する一方, 「盲目」(テキストのみ)の判断は議論の品質にのみ依存する。
この枠組みでは, 専門家は信念に沿う回答のみを守り, 明示的な役割プレーの必要性を排除し, 専門家の不一致の事例に議論を集中させる。
論文 参考訳(メタデータ) (2025-05-20T17:18:17Z) - Teaching Models to Balance Resisting and Accepting Persuasion [69.68379406317682]
PBT (Persuasion-Training) は正と負の説得のバランスをとることができる。
PBTにより、より小さな7-8Bモデル間の対話から生成されたデータを使用して、より大規模な70Bモデルのトレーニングを行うことができる。
PBTは, より安定な結果をもたらし, 順序依存の低減につながることが判明した。
論文 参考訳(メタデータ) (2024-10-18T16:49:36Z) - On scalable oversight with weak LLMs judging strong LLMs [67.8628575615614]
我々は、2つのAIが1人の裁判官を納得させようとする議論、すなわち1人のAIが1人の裁判官を説得し、質問をする。
大規模言語モデル(LLM)をAIエージェントと人間の判断のためのスタンドインの両方として使用し、判断モデルがエージェントモデルよりも弱いと判断する。
論文 参考訳(メタデータ) (2024-07-05T16:29:15Z) - Defeaters and Eliminative Argumentation in Assurance 2.0 [0.0]
本報告では、アシュアランス2.0において、敗者、および複数レベルの敗者がどのように表現され、評価されるべきかを述べる。
このプロセスの有効な懸念は、人間の判断が誤認しやすく、偏見の確認が難しいことである。
論文 参考訳(メタデータ) (2024-05-16T22:10:01Z) - Persua: A Visual Interactive System to Enhance the Persuasiveness of
Arguments in Online Discussion [52.49981085431061]
説得力のある議論を書く能力を高めることは、オンラインコミュニケーションの有効性と文明性に寄与する。
オンライン議論における議論の説得力向上を支援するツールの設計目標を4つ導き出した。
Persuaは対話型ビジュアルシステムであり、議論の説得力を高めるための説得戦略の例に基づくガイダンスを提供する。
論文 参考訳(メタデータ) (2022-04-16T08:07:53Z) - Belief-based Generation of Argumentative Claims [13.590746709967373]
我々は,信念に基づくクレーム生成の課題について考察する: 議論の的となる話題と信念の集合が与えられた場合,その信念に合わせた議論的なクレームを生成する。
この課題に取り組むために、議論を呼ぶトピックに対するスタンスを通じて人々の先行する信念をモデル化し、最新のテキスト生成モデルを拡張して、信念に基づいたクレームを生成します。
本研究は,ユーザの信念をその態度に基づいてモデル化する限界を明らかにするとともに,信念を議論的なテキストにエンコードする可能性を示す。
論文 参考訳(メタデータ) (2021-01-24T18:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。