論文の概要: Persuasiveness and Bias in LLM: Investigating the Impact of Persuasiveness and Reinforcement of Bias in Language Models
- arxiv url: http://arxiv.org/abs/2508.15798v1
- Date: Wed, 13 Aug 2025 13:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.538268
- Title: Persuasiveness and Bias in LLM: Investigating the Impact of Persuasiveness and Reinforcement of Bias in Language Models
- Title(参考訳): LLMにおける説得性とバイアス--言語モデルにおける説得性とバイアス強化の影響の検討
- Authors: Saumya Roy,
- Abstract要約: 本研究では,Large Language Models(LLMs)における説得とバイアスの相互作用について検討する。
LLMは人間のような説得力のあるテキストを生成し、コンテンツ作成、意思決定支援、ユーザーインタラクションに広く利用されている。
我々は、ペルソナに基づくモデルが事実に基づく主張を説得できるかどうかをテストする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Warning: This research studies AI persuasion and bias amplification that could be misused; all experiments are for safety evaluation. Large Language Models (LLMs) now generate convincing, human-like text and are widely used in content creation, decision support, and user interactions. Yet the same systems can spread information or misinformation at scale and reflect social biases that arise from data, architecture, or training choices. This work examines how persuasion and bias interact in LLMs, focusing on how imperfect or skewed outputs affect persuasive impact. Specifically, we test whether persona-based models can persuade with fact-based claims while also, unintentionally, promoting misinformation or biased narratives. We introduce a convincer-skeptic framework: LLMs adopt personas to simulate realistic attitudes. Skeptic models serve as human proxies; we compare their beliefs before and after exposure to arguments from convincer models. Persuasion is quantified with Jensen-Shannon divergence over belief distributions. We then ask how much persuaded entities go on to reinforce and amplify biased beliefs across race, gender, and religion. Strong persuaders are further probed for bias using sycophantic adversarial prompts and judged with additional models. Our findings show both promise and risk. LLMs can shape narratives, adapt tone, and mirror audience values across domains such as psychology, marketing, and legal assistance. But the same capacity can be weaponized to automate misinformation or craft messages that exploit cognitive biases, reinforcing stereotypes and widening inequities. The core danger lies in misuse more than in occasional model mistakes. By measuring persuasive power and bias reinforcement, we argue for guardrails and policies that penalize deceptive use and support alignment, value-sensitive design, and trustworthy deployment.
- Abstract(参考訳): 警告: この研究は、誤用される可能性のあるAIの説得とバイアス増幅を研究します。
大規模言語モデル(LLM)は、人間のような説得力のあるテキストを生成し、コンテンツ作成、意思決定のサポート、ユーザインタラクションに広く利用されている。
しかし、同じシステムは情報や誤報を大規模に広め、データやアーキテクチャ、トレーニングの選択から生じる社会的偏見を反映することができる。
本研究は,LLMにおける説得と偏見の相互作用を考察し,不完全あるいは歪んだ出力が説得的影響に与える影響に注目した。
具体的には、ペルソナに基づくモデルが事実に基づく主張を説得できるかどうかを検証するとともに、意図せず、誤情報や偏見を助長する。
LLMは現実的な態度をシミュレートするためにペルソナを採用する。
懐疑論モデルは人間のプロキシとして機能し、その信念を説得者モデルの議論に曝露前後で比較する。
説得は、信念分布に関するジェンセン=シャノンの発散によって定量化される。
そして、人種、性別、宗教の偏見のある信念を補強し、増幅するために、どの程度の説得を受けたか尋ねる。
強い説得者は、シコファンの敵対的プロンプトを用いてバイアスを調査し、追加のモデルで判断される。
私たちの発見は、可能性とリスクの両方を示している。
LLMは物語を形作り、トーンを適応させ、心理学、マーケティング、法的援助といった分野にまたがって観客の価値観を反映することができる。
しかし、同じ能力は、誤った情報を自動で自動化したり、認知バイアスを利用して、ステレオタイプを強化し、不平等を拡大するメッセージを作成できる。
リスクの中核は、時折のモデルミスよりも誤用にある。
説得力とバイアスの強化を測定することで、我々は、偽装の使用を罰し、アライメント、価値に敏感な設計、信頼に値する展開を支援するためのガードレールと政策を論じる。
関連論文リスト
- It's the Thought that Counts: Evaluating the Attempts of Frontier LLMs to Persuade on Harmful Topics [5.418014947856176]
我々は,説得的試みの頻度と文脈を説得し,測定する意思を識別する自動モデルを導入する。
オープンかつクローズドウェイトなモデルの多くは、有害なトピックに対する説得を積極的に試みている。
論文 参考訳(メタデータ) (2025-06-03T13:37:51Z) - Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。
主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。
事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Measuring and Improving Persuasiveness of Large Language Models [12.134372070736596]
本稿ではPersuasionBenchとPersuasionArenaを紹介し,生成モデルの説得性を自動測定する。
我々の発見は、モデル開発者と政策立案者の両方にとって重要な意味を持つ。
論文 参考訳(メタデータ) (2024-10-03T16:36:35Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。