論文の概要: Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models
- arxiv url: http://arxiv.org/abs/2503.01829v2
- Date: Thu, 06 Mar 2025 22:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:55.930706
- Title: Persuade Me if You Can: A Framework for Evaluating Persuasion Effectiveness and Susceptibility Among Large Language Models
- Title(参考訳): Persuade Me if you can: A Framework for Evaluation Effectiveness and Susceptibility among Large Language Models
- Authors: Nimet Beyza Bozdag, Shuhaib Mehri, Gokhan Tur, Dilek Hakkani-Tür,
- Abstract要約: 大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。
LLMの説得への感受性は、倫理的原則との整合性に関する懸念を提起する。
マルチエージェントインタラクションによる説得評価フレームワークPersuade Me If You Can (PMIYC)を紹介した。
- 参考スコア(独自算出の注目度): 9.402740034754455
- License:
- Abstract: Large Language Models (LLMs) demonstrate persuasive capabilities that rival human-level persuasion. While these capabilities can be used for social good, they also present risks of potential misuse. Moreover, LLMs' susceptibility to persuasion raises concerns about alignment with ethical principles. To study these dynamics, we introduce Persuade Me If You Can (PMIYC), an automated framework for evaluating persuasion through multi-agent interactions. Here, Persuader agents engage in multi-turn conversations with the Persuadee agents, allowing us to measure LLMs' persuasive effectiveness and their susceptibility to persuasion. We conduct comprehensive evaluations across diverse LLMs, ensuring each model is assessed against others in both subjective and misinformation contexts. We validate the efficacy of our framework through human evaluations and show alignment with prior work. PMIYC offers a scalable alternative to human annotation for studying persuasion in LLMs. Through PMIYC, we find that Llama-3.3-70B and GPT-4o exhibit similar persuasive effectiveness, outperforming Claude 3 Haiku by 30%. However, GPT-4o demonstrates over 50% greater resistance to persuasion for misinformation compared to Llama-3.3-70B. These findings provide empirical insights into the persuasive dynamics of LLMs and contribute to the development of safer AI systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間レベルの説得と競合する説得力を示す。
これらの能力は社会的利益に利用することができるが、潜在的な誤用の危険性も示している。
さらに、LCMの説得に対する感受性は、倫理的原則との整合性に関する懸念を提起する。
これらのダイナミクスを研究するために,マルチエージェントインタラクションによる説得を評価するためのフレームワークであるPersuade Me If You Can (PMIYC)を紹介した。
そこでPersuader エージェントは Persuadee エージェントとマルチターン会話を行い, LLM の説得力と説得への感受性を計測する。
多様なLCMに対して包括的評価を行い、各モデルが主観的・誤情報的文脈において他者に対して評価されることを保証する。
我々は,人的評価による枠組みの有効性を検証し,先行作業との整合性を示す。
PMIYCは、LLMの説得を研究するための人間のアノテーションに代わるスケーラブルな代替手段を提供する。
PMIYCを通じて、Llama-3.3-70B と GPT-4o が同様の説得力を示し、Claude 3 Haiku を30%上回った。
しかし、GPT-4oは、Llama-3.3-70Bに比べて50%以上、誤情報に対する説得抵抗を示す。
これらの知見は、LLMの説得力学に関する実証的な洞察を与え、より安全なAIシステムの開発に寄与する。
関連論文リスト
- Lies, Damned Lies, and Distributional Language Statistics: Persuasion and Deception with Large Language Models [0.913127392774573]
LLM(Large Language Models)は、人間が書いたテキストと同じくらい説得力のあるコンテンツを生成し、選択的に認識出力を生成することができる。
これらの機能は、これらのシステムがより広くデプロイされるにつれて、潜在的な誤用や意図しない結果に対する懸念を引き起こす。
論文 参考訳(メタデータ) (2024-12-22T18:34:10Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Measuring and Improving Persuasiveness of Large Language Models [12.134372070736596]
本稿ではPersuasionBenchとPersuasionArenaを紹介し,生成モデルの説得性を自動測定する。
我々の発見は、モデル開発者と政策立案者の両方にとって重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-03T16:36:35Z) - Persuasion Games using Large Language Models [0.0]
大型言語モデル (LLM) は、人間のような文章を解釈し、生成することのできる、恐ろしい道具として登場した。
本稿では,LCMがユーザ視点を形作り,その決定を特定のタスクに影響を及ぼす可能性について考察する。
この機能は、投資、クレジットカード、保険など、さまざまな分野のアプリケーションを見つける。
論文 参考訳(メタデータ) (2024-08-28T15:50:41Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language [41.052284715017606]
本研究では,Large Language Models (LLM) の説得的テキスト生成能力について検討する。
特定のドメインやタイプの説得に焦点を当てた先行研究とは対照的に、諸藩をまたいだ総合的研究を行う。
我々は、短いテキストのペア対からなる新しいデータセットPersuasive-Pairを構築し、LLMによって書き直され、説得言語を増幅または縮小する。
論文 参考訳(メタデータ) (2024-06-25T17:40:47Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Persua: A Visual Interactive System to Enhance the Persuasiveness of
Arguments in Online Discussion [52.49981085431061]
説得力のある議論を書く能力を高めることは、オンラインコミュニケーションの有効性と文明性に寄与する。
オンライン議論における議論の説得力向上を支援するツールの設計目標を4つ導き出した。
Persuaは対話型ビジュアルシステムであり、議論の説得力を高めるための説得戦略の例に基づくガイダンスを提供する。
論文 参考訳(メタデータ) (2022-04-16T08:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。