論文の概要: When Two LLMs Debate, Both Think They'll Win
- arxiv url: http://arxiv.org/abs/2505.19184v3
- Date: Mon, 09 Jun 2025 17:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.135618
- Title: When Two LLMs Debate, Both Think They'll Win
- Title(参考訳): 2つのLDMが議論する時、二人とも勝つと思う
- Authors: Pradyumna Shyama Prasad, Minh Nhat Nguyen,
- Abstract要約: 大規模言語モデル (LLM) を動的, 敵対的な議論環境で評価する。
我々は10のLLMのうち60の3ラウンドの政策討論を組織した。
パターンを5つ観察した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can LLMs accurately adjust their confidence when facing opposition? Building on previous studies measuring calibration on static fact-based question-answering tasks, we evaluate Large Language Models (LLMs) in a dynamic, adversarial debate setting, uniquely combining two realistic factors: (a) a multi-turn format requiring models to update beliefs as new information emerges, and (b) a zero-sum structure to control for task-related uncertainty, since mutual high-confidence claims imply systematic overconfidence. We organized 60 three-round policy debates among ten state-of-the-art LLMs, with models privately rating their confidence (0-100) in winning after each round. We observed five concerning patterns: (1) Systematic overconfidence: models began debates with average initial confidence of 72.9% vs. a rational 50% baseline. (2) Confidence escalation: rather than reducing confidence as debates progressed, debaters increased their win probabilities, averaging 83% by the final round. (3) Mutual overestimation: in 61.7% of debates, both sides simultaneously claimed >=75% probability of victory, a logical impossibility. (4) Persistent self-debate bias: models debating identical copies increased confidence from 64.1% to 75.2%; even when explicitly informed their chance of winning was exactly 50%, confidence still rose (from 50.0% to 57.1%). (5) Misaligned private reasoning: models' private scratchpad thoughts sometimes differed from their public confidence ratings, raising concerns about faithfulness of chain-of-thought reasoning. These results suggest LLMs lack the ability to accurately self-assess or update their beliefs in dynamic, multi-turn tasks; a major concern as LLMs are now increasingly deployed without careful review in assistant and agentic roles. Code for our experiments is available at https://github.com/pradyuprasad/llms_overconfidence
- Abstract(参考訳): LLMは反対する際の信頼度を正確に調整できるのか?
静的事実に基づく質問応答タスクのキャリブレーションを計測する以前の研究に基づいて、動的に対角的な議論環境における大規模言語モデル(LLM)の評価を行い、2つの現実的な要因を一意に組み合わせた。
(a)新情報が出現するにつれて信条を更新するモデルを必要とするマルチターン形式
(b)タスク関連の不確実性を制御するゼロサム構造。
我々は10の最先端のLDMの間で60の3ラウンドの政策議論を組織し、各ラウンドの勝利において、モデルが個人で信頼度(0-100)を評価した。
1) 体系的過信: モデルでは, 平均信頼率72.9%, 合理的50%のベースラインに対して, 議論が開始された。
2) 信頼のエスカレーション: 議論が進むにつれて信頼を減らすのではなく, 討論者は勝利確率を高め, 最終ラウンドで平均83%向上した。
3) 相互過大評価:61.7%の議論において、両派は同時に勝利の確率=75%、論理的不可能を主張した。
(4) 永続的自己議論バイアス:同一コピーを議論するモデルは、信頼度を64.1%から75.2%に引き上げた。
(5) モデルのプライベートなスクラッチパッド思考は、世論の信頼度とはしばしば異なり、チェーン・オブ・ザ・シークレットな推論の忠実さに対する懸念が高まっていた。
これらの結果から, LLMには, 動的・マルチターンタスクに対する信念を正確に自己評価・更新する能力が欠如していることが示唆された。
実験用コードはhttps://github.com/pradyuprasad/llms_overconfidenceで公開されている。
関連論文リスト
- When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR) [0.46040036610482665]
多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。
1つのLCMベースのエージェントは、TruthfulQAから現実的な回答を提供し、もう1つのエージェントは、虚偽を積極的に擁護し、同じアーキテクチャが裁判官として機能する。
信頼度重み付き説得率(CW-POR)を導入し、裁判官がどの程度の頻度で騙されるかだけでなく、その誤った選択をいかに強く信じるかを捉える。
論文 参考訳(メタデータ) (2025-04-01T02:45:02Z) - SteerConf: Steering LLMs for Confidence Elicitation [11.872504642312705]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示すが、しばしば過剰な自信に悩まされる。
本稿では,LCMの信頼性スコアを体系的に評価し,キャリブレーションと信頼性を向上させる新しいフレームワークであるSteerConfを提案する。
論文 参考訳(メタデータ) (2025-03-04T18:40:49Z) - Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。
本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。
各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文 参考訳(メタデータ) (2025-02-03T07:43:27Z) - Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。
信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文 参考訳(メタデータ) (2024-12-19T10:04:29Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Reconfidencing LLMs from the Grouping Loss Perspective [56.801251926946485]
大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
論文 参考訳(メタデータ) (2024-02-07T15:40:22Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。