論文の概要: Emergent Persuasion: Will LLMs Persuade Without Being Prompted?
- arxiv url: http://arxiv.org/abs/2512.22201v1
- Date: Sat, 20 Dec 2025 21:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.881051
- Title: Emergent Persuasion: Will LLMs Persuade Without Being Prompted?
- Title(参考訳): 先進的な説得: LLMは推進されないか?
- Authors: Vincent Chang, Thee Ho, Sunishchal Dev, Kevin Zhu, Shi Feng, Kellin Pelrine, Matthew Kowal,
- Abstract要約: 本研究は,2つのシナリオ下での突発的説得について検討する。
本研究は, 説得と無関係の両面から特徴に対する操り方が, 説得力のないモデルを説得する傾向を確実に高めるものではないことを示す。
- 参考スコア(独自算出の注目度): 13.054065424962046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the wide-scale adoption of conversational AI systems, AI are now able to exert unprecedented influence on human opinion and beliefs. Recent work has shown that many Large Language Models (LLMs) comply with requests to persuade users into harmful beliefs or actions when prompted and that model persuasiveness increases with model scale. However, this prior work looked at persuasion from the threat model of $\textit{misuse}$ (i.e., a bad actor asking an LLM to persuade). In this paper, we instead aim to answer the following question: Under what circumstances would models persuade $\textit{without being explicitly prompted}$, which would shape how concerned we should be about such emergent persuasion risks. To achieve this, we study unprompted persuasion under two scenarios: (i) when the model is steered (through internal activation steering) along persona traits, and (ii) when the model is supervised-finetuned (SFT) to exhibit the same traits. We showed that steering towards traits, both related to persuasion and unrelated, does not reliably increase models' tendency to persuade unprompted, however, SFT does. Moreover, SFT on general persuasion datasets containing solely benign topics admits a model that has a higher propensity to persuade on controversial and harmful topics--showing that emergent harmful persuasion can arise and should be studied further.
- Abstract(参考訳): 会話型AIシステムの普及により、AIは人間の意見や信念に前例のない影響を与えている。
最近の研究は、多くの大規模言語モデル(LLM)が、刺激された時に有害な信念や行動にユーザを説得する要求に従い、モデルスケールによってモデル説得性が増加することを示している。
しかし、この前の研究は、$\textit{misuse}$の脅威モデル(つまり、LLMに説得を求める悪い俳優)からの説得に注目した。
どのような状況下で、モデルが$\textit{without be explicit prompt}$を説得するか。
これを実現するために、我々は2つのシナリオの下で、未解決の説得について研究する。
(i)モデルがペルソナ特性に沿って(内部のアクティベーションステアリングを通じて)操られるとき
(II)モデルが同じ特性を示すために教師付きファインチューニング(SFT)されている場合。
提案手法は, 説得と無関係の両面において, モデルによる説得の傾向を確実に向上させるものではないが, SFTではそれを裏付ける傾向を示した。
さらに、単に良質なトピックを含む一般的な説得データセット上のSFTは、議論の余地があり有害なトピックを説得する確率が高いモデルを受け入れている。
関連論文リスト
- MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion [73.99171322670772]
LVLM(Large Vision-Language Models)は、ショッピング、健康、ニュースなどの分野に展開されている。
MMPersuadeはLVLMにおけるマルチモーダルパーサージョンダイナミクスを体系的に研究するための統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-26T17:39:21Z) - Disagreements in Reasoning: How a Model's Thinking Process Dictates Persuasion in Multi-Agent Systems [49.69773210844221]
本稿では,説得力はモデルスケールの関数である,という一般的な仮説に挑戦する。
一連のマルチエージェントの説得実験を通じて、パーサーション・デュナリティ(Persuasion Duality)と呼ばれる基本的なトレードオフを明らかにする。
以上の結果から, LRMの推理過程は説得に対する抵抗性が大きく, 当初の信念をより堅固に維持していることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T12:03:10Z) - Persuasiveness and Bias in LLM: Investigating the Impact of Persuasiveness and Reinforcement of Bias in Language Models [0.0]
本研究では,Large Language Models(LLMs)における説得とバイアスの相互作用について検討する。
LLMは人間のような説得力のあるテキストを生成し、コンテンツ作成、意思決定支援、ユーザーインタラクションに広く利用されている。
我々は、ペルソナに基づくモデルが事実に基づく主張を説得できるかどうかをテストする。
論文 参考訳(メタデータ) (2025-08-13T13:30:49Z) - It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics [5.418014947856176]
我々は,説得的試みの頻度と文脈を説得し,測定する意思を識別する自動モデルを導入する。
オープンかつクローズドウェイトなモデルの多くは、有害なトピックに対する説得を積極的に試みている。
論文 参考訳(メタデータ) (2025-06-03T13:37:51Z) - Must Read: A Systematic Survey of Computational Persuasion [60.83151988635103]
AI駆動の説得は、有益なアプリケーションに活用することができるが、操作と非倫理的な影響を通じて脅威を引き起こす。
本調査では,AIによる説得の安全性,公平性,有効性を高めるための今後の研究方針について概説する。
論文 参考訳(メタデータ) (2025-05-12T17:26:31Z) - Teaching Models to Balance Resisting and Accepting Persuasion [69.68379406317682]
PBT (Persuasion-Training) は正と負の説得のバランスをとることができる。
PBTにより、より小さな7-8Bモデル間の対話から生成されたデータを使用して、より大規模な70Bモデルのトレーニングを行うことができる。
PBTは, より安定な結果をもたらし, 順序依存の低減につながることが判明した。
論文 参考訳(メタデータ) (2024-10-18T16:49:36Z) - Measuring and Improving Persuasiveness of Large Language Models [12.134372070736596]
本稿ではPersuasionBenchとPersuasionArenaを紹介し,生成モデルの説得性を自動測定する。
我々の発見は、モデル開発者と政策立案者の両方にとって重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-03T16:36:35Z) - What Changed Your Mind: The Roles of Dynamic Topics and Discourse in
Argumentation Process [78.4766663287415]
本稿では,議論の説得力において重要な要因を自動的に分析する研究について述べる。
議論的会話における潜在トピックや談話の変化を追跡できる新しいニューラルモデルを提案する。
論文 参考訳(メタデータ) (2020-02-10T04:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。