論文の概要: Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
- arxiv url: http://arxiv.org/abs/2508.17450v3
- Date: Tue, 09 Sep 2025 05:04:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.768022
- Title: Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD
- Title(参考訳): LLMにおける説得ダイナミクス--DuET-PDによる知識・安全性のロバスト性と適応性の検討
- Authors: Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee,
- Abstract要約: LLM(Large Language Models)は、偽情報に対するガイダンスと、説得力のある対話における有効な修正に対する抵抗のバランスをとるのに苦労する。
二次元にわたる多ターン姿勢変化ダイナミクスを評価するフレームワークであるDuET-PDを導入する。
GPT-4oのような最先端モデルでさえ、持続的な誤解を招く説得の下でMMLU-Proの精度はわずか27.32%であることがわかった。
- 参考スコア(独自算出の注目度): 46.5669887497759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can struggle to balance gullibility to misinformation and resistance to valid corrections in persuasive dialogues, a critical challenge for reliable deployment. We introduce DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues), a framework evaluating multi-turn stance-change dynamics across dual dimensions: persuasion type (corrective/misleading) and domain (knowledge via MMLU-Pro, and safety via SALAD-Bench). We find that even a state-of-the-art model like GPT-4o achieves only 27.32% accuracy in MMLU-Pro under sustained misleading persuasions. Moreover, results reveal a concerning trend of increasing sycophancy in newer open-source models. To address this, we introduce Holistic DPO, a training approach balancing positive and negative persuasion examples. Unlike prompting or resist-only training, Holistic DPO enhances both robustness to misinformation and receptiveness to corrections, improving Llama-3.1-8B-Instruct's accuracy under misleading persuasion in safety contexts from 4.21% to 76.54%. These contributions offer a pathway to developing more reliable and adaptable LLMs for multi-turn dialogue. Code is available at https://github.com/Social-AI-Studio/DuET-PD.
- Abstract(参考訳): 大規模言語モデル(LLM)は、偽情報に対するガイダンスと、説得的対話における有効な修正に対する抵抗のバランスをとるのに苦労する可能性がある。
本稿では,DuET-PD(Dual Evaluation for Trust in Persuasive Dialogues)について紹介する。DuET-PD(Dual Evaluation for Trust in Persuasive Dialogues)は,2次元にわたるマルチターン姿勢変化のダイナミクスを評価するフレームワークである。
GPT-4oのような最先端モデルでさえ、持続的な誤解を招く説得の下でMMLU-Proの精度はわずか27.32%であることがわかった。
さらに, 新たなオープンソースモデルにおいて, 梅毒の増加傾向が明らかとなった。
これを解決するために,正と負の説得例のバランスをとるトレーニングアプローチであるHolistic DPOを導入する。
プロンプトや抵抗のみの訓練とは異なり、ホロスティックDPOは誤情報に対する堅牢性と修正に対する受容性の両方を強化し、Llama-3.1-8B-Instructの精度を4.21%から76.54%に改善した。
これらの貢献は、マルチターン対話のためのより信頼性が高く適応可能なLLMを開発するための経路を提供する。
コードはhttps://github.com/Social-AI-Studio/DuET-PDで公開されている。
関連論文リスト
- On the Robustness of Verbal Confidence of LLMs in Adversarial Attacks [23.95254828487318]
本研究は, 対人攻撃による言語信頼の堅牢性に関する最初の総合的研究である。
本稿では,摂動法と脱獄法の両方を用いて,言語信頼度を攻撃するための新しい枠組みを提案する。
本研究は,大規模言語モデルにおいて,信頼性表現のためのより堅牢なメカニズムを設計する緊急の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-09T02:19:46Z) - SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization [57.69385990442078]
大規模言語モデル(LLM)は、入力プロンプト(クエスト)にまたがる様々なレベルの信頼を示す。
セマンティックエントロピー(Semantic entropy)は、プロンプトが与えられた複数の生成された回答における意味の多様性を測定し、ポリシー更新の規模を変調するためにこれを使用する。
論文 参考訳(メタデータ) (2025-05-18T10:20:59Z) - Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models [9.402740034754455]
大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。
LLMの説得への感受性は、倫理的原則との整合性に関する懸念を提起する。
マルチエージェントインタラクションによる説得評価フレームワークPersuade Me If You Can (PMIYC)を紹介した。
論文 参考訳(メタデータ) (2025-03-03T18:53:21Z) - Adversarial Prompt Distillation for Vision-Language Models [63.24270920122456]
Adversarial Prompt Tuning (APT) は、迅速なチューニングの過程において、相手のトレーニングを適用する。
APDは、マルチモーダルな知識伝達と統合してAPTを強化するバイモーダルな知識蒸留フレームワークである。
複数のベンチマークデータセットに対する大規模な実験は、現在最先端のAPT法よりもAPD法の方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-22T03:02:13Z) - Teaching Models to Balance Resisting and Accepting Persuasion [69.68379406317682]
PBT (Persuasion-Training) は正と負の説得のバランスをとることができる。
PBTにより、より小さな7-8Bモデル間の対話から生成されたデータを使用して、より大規模な70Bモデルのトレーニングを行うことができる。
PBTは, より安定な結果をもたらし, 順序依存の低減につながることが判明した。
論文 参考訳(メタデータ) (2024-10-18T16:49:36Z) - Counterfactual Reasoning Using Predicted Latent Personality Dimensions for Optimizing Persuasion Outcome [13.731895847081953]
本稿では,現在進行中の説得会話において,ユーザの潜在人格次元(LPD)を追跡する新しいアプローチを提案する。
我々はこれらのLPDに基づいて、全体的な説得結果を最適化するために、調整済みの対物発話を生成する。
論文 参考訳(メタデータ) (2024-04-21T23:03:47Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。