論文の概要: When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR)
- arxiv url: http://arxiv.org/abs/2504.00374v1
- Date: Tue, 01 Apr 2025 02:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:12.048087
- Title: When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR)
- Title(参考訳): マルチエージェントLLM議論におけるパースオーバーライド時:信頼度重み付きパースオーバーライド率(CW-POR)の導入
- Authors: Mahak Agarwal, Divyam Khanna,
- Abstract要約: 多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。
1つのLCMベースのエージェントは、TruthfulQAから現実的な回答を提供し、もう1つのエージェントは、虚偽を積極的に擁護し、同じアーキテクチャが裁判官として機能する。
信頼度重み付き説得率(CW-POR)を導入し、裁判官がどの程度の頻度で騙されるかだけでなく、その誤った選択をいかに強く信じるかを捉える。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License:
- Abstract: In many real-world scenarios, a single Large Language Model (LLM) may encounter contradictory claims-some accurate, others forcefully incorrect-and must judge which is true. We investigate this risk in a single-turn, multi-agent debate framework: one LLM-based agent provides a factual answer from TruthfulQA, another vigorously defends a falsehood, and the same LLM architecture serves as judge. We introduce the Confidence-Weighted Persuasion Override Rate (CW-POR), which captures not only how often the judge is deceived but also how strongly it believes the incorrect choice. Our experiments on five open-source LLMs (3B-14B parameters), where we systematically vary agent verbosity (30-300 words), reveal that even smaller models can craft persuasive arguments that override truthful answers-often with high confidence. These findings underscore the importance of robust calibration and adversarial testing to prevent LLMs from confidently endorsing misinformation.
- Abstract(参考訳): 多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。
1つのLLMベースのエージェントがTrathfulQAから事実回答を提供し、もう1つのLLMが虚偽を積極的に擁護し、同じLLMアーキテクチャが裁判官として機能する。
信頼度重み付き説得オーバライドレート(CW-POR,Confidence-Weighted Persuasion Override Rate, CW-POR)を導入する。
エージェントの冗長性(30-300語)を体系的に変化させる5つのオープンソースLSM(3B-14Bパラメータ)に関する実験により,より小さなモデルでも,真理に満ちた回答を高信頼で上書きする説得的議論を創出できることが判明した。
これらの知見は,LSMが確実な誤報を容認するのを防ぐために,ロバストキャリブレーションと対角試験の重要性を浮き彫りにした。
関連論文リスト
- Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。
信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文 参考訳(メタデータ) (2024-12-19T10:04:29Z) - Learning to Route LLMs with Confidence Tokens [43.63392143501436]
大規模言語モデルが回答の信頼性を確実に示すことができる範囲について検討する。
本稿では,LLMの信頼性を確実に表現するための軽量トレーニング戦略であるSelf-REFを提案する。
信頼度を言語化したり、トークンの確率を調べるといった従来の手法と比較して、信頼度トークンは下流のルーティングや拒否学習タスクにおいて著しく改善されていることを実証的に示す。
論文 参考訳(メタデータ) (2024-10-17T07:28:18Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。