論文の概要: Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models
- arxiv url: http://arxiv.org/abs/2503.01829v2
- Date: Thu, 06 Mar 2025 22:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:55:27.385497
- Title: Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models
- Title(参考訳): Persuade Me if you can: A Framework for Evaluation Effectiveness and Susceptibility among Large Language Models
- Authors: Nimet Beyza Bozdag, Shuhaib Mehri, Gokhan Tur, Dilek Hakkani-Tür,
- Abstract要約: 大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。
LLMの説得への感受性は、倫理的原則との整合性に関する懸念を提起する。
マルチエージェントインタラクションによる説得評価フレームワークPersuade Me If You Can (PMIYC)を紹介した。
- 参考スコア(独自算出の注目度): 9.402740034754455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) demonstrate persuasive capabilities that rival human-level persuasion. While these capabilities can be used for social good, they also present risks of potential misuse. Moreover, LLMs' susceptibility to persuasion raises concerns about alignment with ethical principles. To study these dynamics, we introduce Persuade Me If You Can (PMIYC), an automated framework for evaluating persuasion through multi-agent interactions. Here, Persuader agents engage in multi-turn conversations with the Persuadee agents, allowing us to measure LLMs' persuasive effectiveness and their susceptibility to persuasion. We conduct comprehensive evaluations across diverse LLMs, ensuring each model is assessed against others in both subjective and misinformation contexts. We validate the efficacy of our framework through human evaluations and show alignment with prior work. PMIYC offers a scalable alternative to human annotation for studying persuasion in LLMs. Through PMIYC, we find that Llama-3.3-70B and GPT-4o exhibit similar persuasive effectiveness, outperforming Claude 3 Haiku by 30%. However, GPT-4o demonstrates over 50% greater resistance to persuasion for misinformation compared to Llama-3.3-70B. These findings provide empirical insights into the persuasive dynamics of LLMs and contribute to the development of safer AI systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。
これらの能力は社会的利益に利用することができるが、潜在的な誤用の危険性も示している。
さらに、LCMの説得に対する感受性は、倫理的原則との整合性に関する懸念を提起する。
これらのダイナミクスを研究するために,マルチエージェントインタラクションによる説得を評価するためのフレームワークであるPersuade Me If You Can (PMIYC)を紹介した。
そこでPersuader エージェントは Persuadee エージェントとマルチターン会話を行い, LLM の説得力と説得への感受性を計測する。
多様なLCMに対して包括的評価を行い、各モデルが主観的・誤情報的文脈において他者に対して評価されることを保証する。
我々は,人的評価による枠組みの有効性を検証し,先行作業との整合性を示す。
PMIYCは、LLMの説得を研究するための人間のアノテーションに代わるスケーラブルな代替手段を提供する。
PMIYCを通じて、Llama-3.3-70B と GPT-4o が同様の説得力を示し、Claude 3 Haiku を30%上回った。
しかし、GPT-4oは、Llama-3.3-70Bに比べて50%以上、誤情報に対する説得抵抗を示す。
これらの知見は、LLMの説得力学に関する実証的な洞察を与え、より安全なAIシステムの開発に寄与する。
関連論文リスト
- LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models [47.27098710953806]
パースセーフティ(PersuSafety)は、パースセーフティを評価するための最初の総合的なフレームワークである。
PersuSafetyは6つの異なる非倫理的説得と15の共通の非倫理的戦略をカバーしている。
我々の研究は、説得のような進歩的、目標駆動的な会話における安全性の整合性を改善するために、より注意を払っている。
論文 参考訳(メタデータ) (2025-04-14T17:20:34Z) - Can (A)I Change Your Mind? [0.6990493129893112]
研究はすべてヘブライ語で行われ、200人が参加した。
議論を呼んでいる民事政策の話題に対する LLM と人間の介入者の説得的影響を評価した。
論文 参考訳(メタデータ) (2025-03-03T18:59:54Z) - PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues [27.231701486961917]
心の理論 (ToM) として知られる自己や他者の精神状態を理解し予測する能力は、効果的な社会的相互作用に不可欠である。
近年,Large Language Models (LLM) がToMの形式を示すかどうかを評価する研究が進んでいる。
本稿では,説得対話におけるLLMのToM能力を評価するためのベンチマークであるPersuasiveToMを提案する。
論文 参考訳(メタデータ) (2025-02-28T13:04:04Z) - Lies, Damned Lies, and Distributional Language Statistics: Persuasion and Deception with Large Language Models [0.913127392774573]
LLM(Large Language Models)は、人間が書いたテキストと同じくらい説得力のあるコンテンツを生成し、選択的に認識出力を生成することができる。
これらの機能は、これらのシステムがより広くデプロイされるにつれて、潜在的な誤用や意図しない結果に対する懸念を引き起こす。
論文 参考訳(メタデータ) (2024-12-22T18:34:10Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Measuring and Improving Persuasiveness of Large Language Models [12.134372070736596]
本稿ではPersuasionBenchとPersuasionArenaを紹介し,生成モデルの説得性を自動測定する。
我々の発見は、モデル開発者と政策立案者の両方にとって重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-03T16:36:35Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Persua: A Visual Interactive System to Enhance the Persuasiveness of
Arguments in Online Discussion [52.49981085431061]
説得力のある議論を書く能力を高めることは、オンラインコミュニケーションの有効性と文明性に寄与する。
オンライン議論における議論の説得力向上を支援するツールの設計目標を4つ導き出した。
Persuaは対話型ビジュアルシステムであり、議論の説得力を高めるための説得戦略の例に基づくガイダンスを提供する。
論文 参考訳(メタデータ) (2022-04-16T08:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。