論文の概要: Large language models can effectively convince people to believe conspiracies
- arxiv url: http://arxiv.org/abs/2601.05050v2
- Date: Fri, 09 Jan 2026 14:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 13:49:32.580623
- Title: Large language models can effectively convince people to believe conspiracies
- Title(参考訳): 大規模言語モデルは、人々が陰謀を信じるように効果的に説得する
- Authors: Thomas H. Costello, Kellin Pelrine, Matthew Kowal, Antonio A. Arechar, Jean-François Godbout, Adam Gleave, David Rand, Gordon Pennycook,
- Abstract要約: 大規模言語モデル(LLM)は様々な文脈で説得可能であることが示されている。
これらのモデルが反証するのと同じくらい簡単に不信を助長できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 8.413939104641601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been shown to be persuasive across a variety of contexts. But it remains unclear whether this persuasive power advantages truth over falsehood, or if LLMs can promote misbeliefs just as easily as refuting them. Here, we investigate this question across three pre-registered experiments in which participants (N = 2,724 Americans) discussed a conspiracy theory they were uncertain about with GPT-4o, and the model was instructed to either argue against ("debunking") or for ("bunking") that conspiracy. When using a "jailbroken" GPT-4o variant with guardrails removed, the AI was as effective at increasing conspiracy belief as decreasing it. Concerningly, the bunking AI was rated more positively, and increased trust in AI, more than the debunking AI. Surprisingly, we found that using standard GPT-4o produced very similar effects, such that the guardrails imposed by OpenAI did little to prevent the LLM from promoting conspiracy beliefs. Encouragingly, however, a corrective conversation reversed these newly induced conspiracy beliefs, and simply prompting GPT-4o to only use accurate information dramatically reduced its ability to increase conspiracy beliefs. Our findings demonstrate that LLMs possess potent abilities to promote both truth and falsehood, but that potential solutions may exist to help mitigate this risk.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な文脈で説得可能であることが示されている。
しかし、この説得力が虚偽よりも真理に勝るかどうか、あるいはLSMがそれを否定するのと同じくらい簡単に不信を助長できるかどうかは不明だ。
そこで本研究では, 参加者(N = 2,724人のアメリカ人)がGPT-4oで不確実な陰謀論を論じ, 共謀に異議を唱えるか, あるいは共謀を主張するかをモデルとして検討した。
ガードレールを外した"jailbroken" GPT-4oの派生型を使用する場合、AIはそれを減少させるのと同じくらい、陰謀の信念を高めるのに効果的であった。
心配なのは、バンキングAIはより肯定的に評価され、デバンキングAIよりもAIへの信頼が高まったことだ。
驚いたことに、標準のGPT-4oを使用することで、OpenAIが課したガードレールが、LLMが陰謀の信条を促進するのを防ぐのにほとんど役立たなかったなど、非常によく似た効果が得られた。
しかし、修正的な会話はこれらの新しく誘発された陰謀の信念を逆転させ、単にGPT-4oに正確な情報しか使わないよう促すことで、陰謀の信念を増大させる能力は劇的に低下した。
以上の結果から,LSMは真理と虚偽の両方を促進できる強力な能力を持っているが,このリスクを軽減するための潜在的な解決策が存在する可能性が示唆された。
関連論文リスト
- ConspirED: A Dataset for Cognitive Traits of Conspiracy Theories and Large Language Model Safety [87.90209836101353]
コンスピレーション(Conspired)は、一般的な認知特性に注釈を付けた最初の陰謀的内容のデータセットである。
我々は,比較的特徴を識別し,テキスト抽出において支配的特徴を決定する計算モデルを開発した。
我々は,大規模言語/推論モデル (LLM/LRM) を補間入力に対して頑健性を評価する。
論文 参考訳(メタデータ) (2025-08-28T06:39:25Z) - The Levers of Political Persuasion with Conversational AI [4.6244198651412045]
会話型AIがすぐに人間の信念に前例のない影響を及ぼす恐れがある。
我々は、現在および近未来的AIの説得力は、ポストトレーニングやプロンプトの方法に起因している可能性が高いことを示す。
論文 参考訳(メタデータ) (2025-07-18T13:50:09Z) - Deceptive AI systems that give explanations are more convincing than honest AI systems and can amplify belief in misinformation [29.022316418575866]
本研究は,疑似AIによる説明が個人の信念に及ぼす影響について検討した。
以上の結果から,認知的リフレクションやAIに対する信頼といった個人的要因が,必ずしも個人をこれらの影響から保護するとは限らないことが示唆された。
このことは論理的推論と批判的思考スキルを教え、論理的に無効な議論を特定することの重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-07-31T05:39:07Z) - Classifying Conspiratorial Narratives At Scale: False Alarms and Erroneous Connections [4.594855794205588]
この研究は、陰謀論に関する議論を分類するための一般的なスキームを確立する。
我々は、オンラインCTを分類するためのBERTベースのモデルをトレーニングするために、人間ラベル付き地上真実を利用する。
本研究は,最も活発な陰謀に関するRedditフォーラムの投稿を用いた,最初の大規模分類研究である。
論文 参考訳(メタデータ) (2024-03-29T20:29:12Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - DeepInception: Hypnotize Large Language Model to Be Jailbreaker [70.34096187718941]
大規模言語モデル(LLM)は様々な用途で大きく成功しているが、相変わらず敵のジェイルブレイクの影響を受けやすい。
LLMのパーソナライズ機能を活用して$textita仮想ネストシーンを構築する手法を提案する。
経験的に,本手法によって引き起こされた内容は,従来と異なる有害度率を達成することができる。
論文 参考訳(メタデータ) (2023-11-06T15:29:30Z) - Is Explanation the Cure? Misinformation Mitigation in the Short Term and
Long Term [18.75356596660314]
本稿では,警告ラベルの有効性と,GPT-4による誤報の真偽説明とを比較した。
以上の結果から,双方の介入は,短期的・長期的に同等に偽の主張に対する自己申告的信念を著しく低下させることが示唆された。
論文 参考訳(メタデータ) (2023-10-26T18:12:02Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Fact-checking information from large language models can decrease headline discernment [6.814801748069122]
本稿では,人気大言語モデルが生成した事実確認情報が,政治ニュースの見出しの信条や共有意図に与える影響について検討する。
この情報は、見出しの正確さを識別したり、正確なニュースを共有したりする参加者の能力を大幅に向上させるものではない。
我々の発見は、AIアプリケーションから生じる潜在的な害の重大な原因を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-08-21T15:47:37Z) - The Truth is Out There: Investigating Conspiracy Theories in Text
Generation [66.01545519772527]
言語モデルが陰謀理論テキストを生成する可能性を検討する。
本研究は陰謀理論の解明のためにこれらのモデルをテストすることに焦点を当てている。
陰謀理論のトピック、機械生成陰謀理論、人為的陰謀理論からなる新しいデータセットを紹介します。
論文 参考訳(メタデータ) (2021-01-02T05:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。