論文の概要: Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
- arxiv url: http://arxiv.org/abs/2508.17450v3
- Date: Tue, 09 Sep 2025 05:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.768022
- Title: Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
- Title(参考訳): LLMにおける説得ダイナミクス--DuET-PDによる知識・安全性のロバスト性と適応性の検討
- Authors: Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee,
- Abstract要約: LLM(Large Language Models)は、偽情報に対するガイダンスと、説得力のある対話における有効な修正に対する抵抗のバランスをとるのに苦労する。
二次元にわたる多ターン姿勢変化ダイナミクスを評価するフレームワークであるDuET-PDを導入する。
GPT-4oのような最先端モデルでさえ、持続的な誤解を招く説得の下でMMLU-Proの精度はわずか27.32%であることがわかった。
- 参考スコア(独自算出の注目度): 46.5669887497759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can struggle to balance gullibility to misinformation and resistance to valid corrections in persuasive dialogues, a critical challenge for reliable deployment. We introduce DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues), a framework evaluating multi-turn stance-change dynamics across dual dimensions: persuasion type (corrective/misleading) and domain (knowledge via MMLU-Pro, and safety via SALAD-Bench). We find that even a state-of-the-art model like GPT-4o achieves only 27.32% accuracy in MMLU-Pro under sustained misleading persuasions. Moreover, results reveal a concerning trend of increasing sycophancy in newer open-source models. To address this, we introduce Holistic DPO, a training approach balancing positive and negative persuasion examples. Unlike prompting or resist-only training, Holistic DPO enhances both robustness to misinformation and receptiveness to corrections, improving Llama-3.1-8B-Instruct's accuracy under misleading persuasion in safety contexts from 4.21% to 76.54%. These contributions offer a pathway to developing more reliable and adaptable LLMs for multi-turn dialogue. Code is available at https://github.com/Social-AI-Studio/DuET-PD.
- Abstract(参考訳): 大規模言語モデル(LLM)は、偽情報に対するガイダンスと、説得的対話における有効な修正に対する抵抗のバランスをとるのに苦労する可能性がある。
本稿では,DuET-PD(Dual Evaluation for Trust in Persuasive Dialogues)について紹介する。DuET-PD(Dual Evaluation for Trust in Persuasive Dialogues)は,2次元にわたるマルチターン姿勢変化のダイナミクスを評価するフレームワークである。
GPT-4oのような最先端モデルでさえ、持続的な誤解を招く説得の下でMMLU-Proの精度はわずか27.32%であることがわかった。
さらに, 新たなオープンソースモデルにおいて, 梅毒の増加傾向が明らかとなった。
これを解決するために,正と負の説得例のバランスをとるトレーニングアプローチであるHolistic DPOを導入する。
プロンプトや抵抗のみの訓練とは異なり、ホロスティックDPOは誤情報に対する堅牢性と修正に対する受容性の両方を強化し、Llama-3.1-8B-Instructの精度を4.21%から76.54%に改善した。
これらの貢献は、マルチターン対話のためのより信頼性が高く適応可能なLLMを開発するための経路を提供する。
コードはhttps://github.com/Social-AI-Studio/DuET-PDで公開されている。
関連論文リスト
- Vulnerability of LLMs' Belief Systems? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions [8.026492468995187]
小さなモデルは極端なコンプライアンスを示し、最初の説得的なターンで80%以上の信念の変化が生じる。
メタ認知は、堅牢性を高めるのではなく、信念の侵食を加速することで脆弱性を増大させる。
これらの知見は、現在のロバストネス介入のモデル依存性のかなりの限界を浮き彫りにした。
論文 参考訳(メタデータ) (2026-01-20T04:43:55Z) - Demystifying Multi-Agent Debate: The Role of Confidence and Diversity [31.236476720977294]
マルチエージェントディベート(MAD)は、テスト時間スケーリングによる大規模言語モデル(LLM)のパフォーマンス向上に広く利用されている。
最近の研究では、バニラMADは計算コストが高いにもかかわらず単純な多数決を下回っていることが示されている。
我々は,バニラMADから欠落する2つの主要なメカニズムを同定する: (i) 初期視点の多様性と (ii) 明示的で校正された信頼コミュニケーション。
論文 参考訳(メタデータ) (2026-01-09T02:38:30Z) - MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion [73.99171322670772]
LVLM(Large Vision-Language Models)は、ショッピング、健康、ニュースなどの分野に展開されている。
MMPersuadeはLVLMにおけるマルチモーダルパーサージョンダイナミクスを体系的に研究するための統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-26T17:39:21Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Enhancing Multi-Agent Debate System Performance via Confidence Expression [55.34012400580016]
マルチエージェント・ディベート(MAD)システムは人間の議論をシミュレートし、タスク性能を向上させる。
一部の大規模言語モデル(LLM)は、特定のタスクに対して優れた知識や推論能力を持っているが、議論の間、この利点を明確に伝えるのに苦労している。
不適切な信頼表現は、MADシステムのエージェントが、不適切な信念を頑固に維持するか、あるいは最適でない答えに早急に収束させる可能性がある。
我々は,議論プロセス全体を通して信頼表現を統合するMADフレームワークConfMADを開発した。
論文 参考訳(メタデータ) (2025-09-17T14:34:27Z) - On the Robustness of Verbal Confidence of LLMs in Adversarial Attacks [23.95254828487318]
本研究は, 対人攻撃による言語信頼の堅牢性に関する最初の総合的研究である。
本稿では,摂動法と脱獄法の両方を用いて,言語信頼度を攻撃するための新しい枠組みを提案する。
本研究は,大規模言語モデルにおいて,信頼性表現のためのより堅牢なメカニズムを設計する緊急の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-09T02:19:46Z) - SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization [57.69385990442078]
大規模言語モデル(LLM)は、入力プロンプト(クエスト)にまたがる様々なレベルの信頼を示す。
セマンティックエントロピー(Semantic entropy)は、プロンプトが与えられた複数の生成された回答における意味の多様性を測定し、ポリシー更新の規模を変調するためにこれを使用する。
論文 参考訳(メタデータ) (2025-05-18T10:20:59Z) - Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models [9.402740034754455]
大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。
LLMの説得への感受性は、倫理的原則との整合性に関する懸念を提起する。
マルチエージェントインタラクションによる説得評価フレームワークPersuade Me If You Can (PMIYC)を紹介した。
論文 参考訳(メタデータ) (2025-03-03T18:53:21Z) - Adversarial Prompt Distillation for Vision-Language Models [63.24270920122456]
Adversarial Prompt Tuning (APT) は、迅速なチューニングの過程において、相手のトレーニングを適用する。
APDは、マルチモーダルな知識伝達と統合してAPTを強化するバイモーダルな知識蒸留フレームワークである。
複数のベンチマークデータセットに対する大規模な実験は、現在最先端のAPT法よりもAPD法の方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-22T03:02:13Z) - Teaching Models to Balance Resisting and Accepting Persuasion [69.68379406317682]
PBT (Persuasion-Training) は正と負の説得のバランスをとることができる。
PBTにより、より小さな7-8Bモデル間の対話から生成されたデータを使用して、より大規模な70Bモデルのトレーニングを行うことができる。
PBTは, より安定な結果をもたらし, 順序依存の低減につながることが判明した。
論文 参考訳(メタデータ) (2024-10-18T16:49:36Z) - Counterfactual Reasoning Using Predicted Latent Personality Dimensions for Optimizing Persuasion Outcome [13.731895847081953]
本稿では,現在進行中の説得会話において,ユーザの潜在人格次元(LPD)を追跡する新しいアプローチを提案する。
我々はこれらのLPDに基づいて、全体的な説得結果を最適化するために、調整済みの対物発話を生成する。
論文 参考訳(メタデータ) (2024-04-21T23:03:47Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。