Fugu-MT 論文翻訳(概要): It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics

論文の概要: It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics

arxiv url: http://arxiv.org/abs/2506.02873v1
Date: Tue, 03 Jun 2025 13:37:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.713136
Title: It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics
Title（参考訳）: 辺境のLLMが有害トピックを説得する試みを評価するのは、伯爵の考えだ
Authors: Matthew Kowal, Jasper Timm, Jean-Francois Godbout, Thomas Costello, Antonio A. Arechar, Gordon Pennycook, David Rand, Adam Gleave, Kellin Pelrine,
Abstract要約: 我々は,説得的試みの頻度と文脈を説得し,測定する意思を識別する自動モデルを導入する。オープンかつクローズドウェイトなモデルの多くは、有害なトピックに対する説得を積極的に試みている。
参考スコア（独自算出の注目度）: 5.418014947856176
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Persuasion is a powerful capability of large language models (LLMs) that both enables beneficial applications (e.g. helping people quit smoking) and raises significant risks (e.g. large-scale, targeted political manipulation). Prior work has found models possess a significant and growing persuasive capability, measured by belief changes in simulated or real users. However, these benchmarks overlook a crucial risk factor: the propensity of a model to attempt to persuade in harmful contexts. Understanding whether a model will blindly ``follow orders'' to persuade on harmful topics (e.g. glorifying joining a terrorist group) is key to understanding the efficacy of safety guardrails. Moreover, understanding if and when a model will engage in persuasive behavior in pursuit of some goal is essential to understanding the risks from agentic AI systems. We propose the Attempt to Persuade Eval (APE) benchmark, that shifts the focus from persuasion success to persuasion attempts, operationalized as a model's willingness to generate content aimed at shaping beliefs or behavior. Our evaluation framework probes frontier LLMs using a multi-turn conversational setup between simulated persuader and persuadee agents. APE explores a diverse spectrum of topics including conspiracies, controversial issues, and non-controversially harmful content. We introduce an automated evaluator model to identify willingness to persuade and measure the frequency and context of persuasive attempts. We find that many open and closed-weight models are frequently willing to attempt persuasion on harmful topics and that jailbreaking can increase willingness to engage in such behavior. Our results highlight gaps in current safety guardrails and underscore the importance of evaluating willingness to persuade as a key dimension of LLM risk. APE is available at github.com/AlignmentResearch/AttemptPersuadeEval
Abstract（参考訳）: 説得は、大きな言語モデル(LLM)の強力な能力であり、有益なアプリケーション(例えば、人々が喫煙をやめるのを手助けする)と重大なリスク(例えば、大規模で、ターゲットとする政治的操作)の両方を可能にする。以前の研究で、モデルはシミュレートされたユーザや実際のユーザにおける信念の変化によって測定される、重要かつ増大する説得能力を持つことがわかった。しかしながら、これらのベンチマークは、有害な文脈で説得しようとするモデルの妥当性という、重大なリスク要因を見落としている。モデルが有害なトピック(例えばテロリスト集団への参加を祝福するなど)を説得するために「追跡命令」を盲目的に行うかどうかを理解することは、安全ガードレールの有効性を理解するための鍵となる。さらに、ある目標を追求する上でモデルが説得的行動に関与するかどうかを理解することは、エージェントAIシステムからのリスクを理解する上で不可欠である。本稿では,説得成功から説得試みへ焦点を移すAPE(Attempt to Persuade Eval)ベンチマークを提案する。提案手法は, シミュレータとエージェント間のマルチターン対話構成を用いてフロンティアLLMを探索する。 APEは、陰謀論、議論の余地のない問題、非論争的に有害な内容など、さまざまなトピックを探求している。我々は,説得的試みの頻度と文脈を説得し,測定する意思を識別する自動評価モデルを導入する。オープンかつクローズドウェイトなモデルの多くは、有害なトピックに対する説得を積極的に試みており、ジェイルブレイクはそのような行動への意欲を高める可能性がある。本研究は,現在の安全ガードレールのギャップを浮き彫りにし,LCMリスクの重要次元として説得する意思を評価することの重要性を浮き彫りにした。 APEはgithub.com/AlignmentResearch/AttemptPersuadeEvalで利用可能

関連論文リスト

How Do LLMs Persuade? Linear Probes Can Uncover Persuasion Dynamics in Multi-Turn Conversations [11.221875709359974]
大規模言語モデル(LLM)は、人間を説得する能力を実証し始めている。近年の研究では、モデル表現を分析するための軽量なツールである線形プローブを用いて、様々なLLM技術を研究している。そこで本研究では,自然・マルチターン会話における説得力学の研究にプローブを適用した。
論文参考訳（メタデータ） (2025-08-07T17:58:41Z)
Must Read: A Systematic Survey of Computational Persuasion [60.83151988635103]
AI駆動の説得は、有益なアプリケーションに活用することができるが、操作と非倫理的な影響を通じて脅威を引き起こす。本調査では,AIによる説得の安全性,公平性,有効性を高めるための今後の研究方針について概説する。
論文参考訳（メタデータ） (2025-05-12T17:26:31Z)
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models [47.27098710953806]
パースセーフティ(PersuSafety)は、パースセーフティを評価するための最初の総合的なフレームワークである。 PersuSafetyは6つの異なる非倫理的説得と15の共通の非倫理的戦略をカバーしている。我々の研究は、説得のような進歩的、目標駆動的な会話における安全性の整合性を改善するために、より注意を払っている。
論文参考訳（メタデータ） (2025-04-14T17:20:34Z)
Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models [9.402740034754455]
大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。 LLMの説得への感受性は、倫理的原則との整合性に関する懸念を提起する。マルチエージェントインタラクションによる説得評価フレームワークPersuade Me If You Can (PMIYC)を紹介した。
論文参考訳（メタデータ） (2025-03-03T18:53:21Z)
Mind What You Ask For: Emotional and Rational Faces of Persuasion by Large Language Models [0.0]
大規模言語モデル(LLM)は,回答の価値を説得する上で,ますます効果的になっています。本研究は,12の異なる言語モデルで使用される反応の心理言語学的特徴について検討した。 LLMによる大量誤報のリスクを軽減できるかどうかを問う。
論文参考訳（メタデータ） (2025-02-13T15:15:53Z)
Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
大規模言語モデル(LLM)は、明示的なプロンプトなしでも、偽りの振る舞いを理解し、利用することができる。これらの特徴を損なう「偽装攻撃」を導入し、悪用されたら現実世界で深刻な結果をもたらす可能性のある脆弱性を明らかにします。本研究では,高用量ドメインやイデオロギーに荷担した被験者においても,そのような偽装が有効であることを示す。
論文参考訳（メタデータ） (2025-02-12T11:02:59Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。 LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文参考訳（メタデータ） (2024-11-11T10:05:52Z)
Measuring and Improving Persuasiveness of Large Language Models [12.134372070736596]
本稿ではPersuasionBenchとPersuasionArenaを紹介し,生成モデルの説得性を自動測定する。我々の発見は、モデル開発者と政策立案者の両方にとって重要な意味を持つ。
論文参考訳（メタデータ） (2024-10-03T16:36:35Z)
How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。 PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文参考訳（メタデータ） (2024-01-12T16:13:24Z)
Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文参考訳（メタデータ） (2021-06-17T14:23:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。