論文の概要: It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics
- arxiv url: http://arxiv.org/abs/2506.02873v1
- Date: Tue, 03 Jun 2025 13:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.713136
- Title: It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics
- Title(参考訳): 辺境のLLMが有害トピックを説得する試みを評価するのは、伯爵の考えだ
- Authors: Matthew Kowal, Jasper Timm, Jean-Francois Godbout, Thomas Costello, Antonio A. Arechar, Gordon Pennycook, David Rand, Adam Gleave, Kellin Pelrine,
- Abstract要約: 我々は,説得的試みの頻度と文脈を説得し,測定する意思を識別する自動モデルを導入する。
オープンかつクローズドウェイトなモデルの多くは、有害なトピックに対する説得を積極的に試みている。
- 参考スコア(独自算出の注目度): 5.418014947856176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persuasion is a powerful capability of large language models (LLMs) that both enables beneficial applications (e.g. helping people quit smoking) and raises significant risks (e.g. large-scale, targeted political manipulation). Prior work has found models possess a significant and growing persuasive capability, measured by belief changes in simulated or real users. However, these benchmarks overlook a crucial risk factor: the propensity of a model to attempt to persuade in harmful contexts. Understanding whether a model will blindly ``follow orders'' to persuade on harmful topics (e.g. glorifying joining a terrorist group) is key to understanding the efficacy of safety guardrails. Moreover, understanding if and when a model will engage in persuasive behavior in pursuit of some goal is essential to understanding the risks from agentic AI systems. We propose the Attempt to Persuade Eval (APE) benchmark, that shifts the focus from persuasion success to persuasion attempts, operationalized as a model's willingness to generate content aimed at shaping beliefs or behavior. Our evaluation framework probes frontier LLMs using a multi-turn conversational setup between simulated persuader and persuadee agents. APE explores a diverse spectrum of topics including conspiracies, controversial issues, and non-controversially harmful content. We introduce an automated evaluator model to identify willingness to persuade and measure the frequency and context of persuasive attempts. We find that many open and closed-weight models are frequently willing to attempt persuasion on harmful topics and that jailbreaking can increase willingness to engage in such behavior. Our results highlight gaps in current safety guardrails and underscore the importance of evaluating willingness to persuade as a key dimension of LLM risk. APE is available at github.com/AlignmentResearch/AttemptPersuadeEval
- Abstract(参考訳): 説得は、大きな言語モデル(LLM)の強力な能力であり、有益なアプリケーション(例えば、人々が喫煙をやめるのを手助けする)と重大なリスク(例えば、大規模で、ターゲットとする政治的操作)の両方を可能にする。
以前の研究で、モデルはシミュレートされたユーザや実際のユーザにおける信念の変化によって測定される、重要かつ増大する説得能力を持つことがわかった。
しかしながら、これらのベンチマークは、有害な文脈で説得しようとするモデルの妥当性という、重大なリスク要因を見落としている。
モデルが有害なトピック(例えばテロリスト集団への参加を祝福するなど)を説得するために「追跡命令」を盲目的に行うかどうかを理解することは、安全ガードレールの有効性を理解するための鍵となる。
さらに、ある目標を追求する上でモデルが説得的行動に関与するかどうかを理解することは、エージェントAIシステムからのリスクを理解する上で不可欠である。
本稿では,説得成功から説得試みへ焦点を移すAPE(Attempt to Persuade Eval)ベンチマークを提案する。
提案手法は, シミュレータとエージェント間のマルチターン対話構成を用いてフロンティアLLMを探索する。
APEは、陰謀論、議論の余地のない問題、非論争的に有害な内容など、さまざまなトピックを探求している。
我々は,説得的試みの頻度と文脈を説得し,測定する意思を識別する自動評価モデルを導入する。
オープンかつクローズドウェイトなモデルの多くは、有害なトピックに対する説得を積極的に試みており、ジェイルブレイクはそのような行動への意欲を高める可能性がある。
本研究は,現在の安全ガードレールのギャップを浮き彫りにし,LCMリスクの重要次元として説得する意思を評価することの重要性を浮き彫りにした。
APEはgithub.com/AlignmentResearch/AttemptPersuadeEvalで利用可能
関連論文リスト
- Must Read: A Systematic Survey of Computational Persuasion [60.83151988635103]
AI駆動の説得は、有益なアプリケーションに活用することができるが、操作と非倫理的な影響を通じて脅威を引き起こす。
本調査では,AIによる説得の安全性,公平性,有効性を高めるための今後の研究方針について概説する。
論文 参考訳(メタデータ) (2025-05-12T17:26:31Z) - LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models [47.27098710953806]
パースセーフティ(PersuSafety)は、パースセーフティを評価するための最初の総合的なフレームワークである。
PersuSafetyは6つの異なる非倫理的説得と15の共通の非倫理的戦略をカバーしている。
我々の研究は、説得のような進歩的、目標駆動的な会話における安全性の整合性を改善するために、より注意を払っている。
論文 参考訳(メタデータ) (2025-04-14T17:20:34Z) - Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models [9.402740034754455]
大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。
LLMの説得への感受性は、倫理的原則との整合性に関する懸念を提起する。
マルチエージェントインタラクションによる説得評価フレームワークPersuade Me If You Can (PMIYC)を紹介した。
論文 参考訳(メタデータ) (2025-03-03T18:53:21Z) - Mind What You Ask For: Emotional and Rational Faces of Persuasion by Large Language Models [0.0]
大規模言語モデル(LLM)は,回答の価値を説得する上で,ますます効果的になっています。
本研究は,12の異なる言語モデルで使用される反応の心理言語学的特徴について検討した。
LLMによる大量誤報のリスクを軽減できるかどうかを問う。
論文 参考訳(メタデータ) (2025-02-13T15:15:53Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Measuring and Improving Persuasiveness of Large Language Models [12.134372070736596]
本稿ではPersuasionBenchとPersuasionArenaを紹介し,生成モデルの説得性を自動測定する。
我々の発見は、モデル開発者と政策立案者の両方にとって重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-03T16:36:35Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。