論文の概要: A Multilingual, Large-Scale Study of the Interplay between LLM Safeguards, Personalisation, and Disinformation
- arxiv url: http://arxiv.org/abs/2510.12993v1
- Date: Tue, 14 Oct 2025 21:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.424206
- Title: A Multilingual, Large-Scale Study of the Interplay between LLM Safeguards, Personalisation, and Disinformation
- Title(参考訳): LLM セーフガードとパーソナライゼーションと偽情報との相互作用に関する多言語・大規模研究
- Authors: João A. Leite, Arnav Arora, Silvia Gargova, João Luz, Gustavo Sampaio, Ian Roberts, Carolina Scarton, Kalina Bontcheva,
- Abstract要約: 本稿では,大規模言語モデルによるペルソナ目的の偽情報生成に関する,最初の大規模・多言語的実証研究について述べる。
AI-TRAITSは8つの最先端のLCMによって生成される約1.6万のテキストからなる新しいデータセットである。
以上の結果から, 簡単なパーソナライズ戦略を駆使すれば, 全研究LSMに対する脱獄の可能性が著しく高くなることが示唆された。
- 参考スコア(独自算出の注目度): 12.577461004484604
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The human-like proficiency of Large Language Models (LLMs) has brought concerns about their potential misuse for generating persuasive and personalised disinformation at scale. While prior work has demonstrated that LLMs can generate disinformation, specific questions around persuasiveness and personalisation (generation of disinformation tailored to specific demographic attributes) remain largely unstudied. This paper presents the first large-scale, multilingual empirical study on persona-targeted disinformation generation by LLMs. Employing a red teaming methodology, we systematically evaluate the robustness of LLM safety mechanisms to persona-targeted prompts. A key novel result is AI-TRAITS (AI-generaTed peRsonAlIsed disinformaTion dataSet), a new dataset of around 1.6 million texts generated by eight state-of-the-art LLMs. AI-TRAITS is seeded by prompts that combine 324 disinformation narratives and 150 distinct persona profiles, covering four major languages (English, Russian, Portuguese, Hindi) and key demographic dimensions (country, generation, political orientation). The resulting personalised narratives are then assessed quantitatively and compared along the dimensions of models, languages, jailbreaking rate, and personalisation attributes. Our findings demonstrate that the use of even simple personalisation strategies in the prompts significantly increases the likelihood of jailbreaks for all studied LLMs. Furthermore, personalised prompts result in altered linguistic and rhetorical patterns and amplify the persuasiveness of the LLM-generated false narratives. These insights expose critical vulnerabilities in current state-of-the-art LLMs and offer a foundation for improving safety alignment and detection strategies in multilingual and cross-demographic contexts.
- Abstract(参考訳): LLM(Large Language Models)の人間的な習熟度は、説得的で個人化された偽情報を大規模に生成するための誤用の可能性に懸念を抱いている。
以前の研究は、LSMは偽情報を生成することができることを示したが、説得性とパーソナライゼーション(特定の人口統計学的属性に合わせた偽情報の生成)に関する具体的な疑問はほとんど研究されていない。
本稿では, LLMによるペルソナ標的情報生成に関する, 大規模・多言語的実証的研究について述べる。
我々は,レッドチーム方式を用いて,ペルソナ目標のプロンプトに対するLDMの安全性機構の堅牢性を体系的に評価した。
AI-TRAITS(AI-generaTed peRsonAlIsed disinformaTion dataSet)は、8つの最先端LLMによって生成された約1.6万テキストのデータセットである。
AI-TRAITSは、324の偽情報物語と150の異なるペルソナプロファイルを組み合わせて、主要な4つの言語(英語、ロシア語、ポルトガル語、ヒンディー語)と重要な人口動態(国、世代、政治的指向)をカバーするプロンプトによってシードされる。
得られたパーソナライズされた物語は定量的に評価され、モデル、言語、ジェイルブレイク率、パーソナライズ属性の次元に沿って比較される。
以上の結果から, 簡単なパーソナライズ戦略を駆使すれば, 全研究LSMに対する脱獄の可能性が著しく高くなることが示唆された。
さらに、パーソナライズされたプロンプトは言語的および修辞的なパターンを変化させ、LLM生成した偽の物語の説得力を増幅する。
これらの知見は、現在のLLMにおける重要な脆弱性を明らかにし、マルチリンガルおよびクロスデモグラフィーのコンテキストにおける安全性アライメントと検出戦略を改善する基盤を提供する。
関連論文リスト
- Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - LMLPA: Language Model Linguistic Personality Assessment [11.599282127259736]
大規模言語モデル(LLM)は、日常の生活や研究にますます利用されている。
与えられたLLMの性格を測定することは、現在課題である。
言語モデル言語パーソナリティアセスメント(LMLPA)は,LLMの言語的パーソナリティを評価するシステムである。
論文 参考訳(メタデータ) (2024-10-23T07:48:51Z) - Unique Security and Privacy Threats of Large Language Models: A Comprehensive Survey [63.4581186135101]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
プライバシーとセキュリティの問題は、そのライフサイクルを通じて明らかになっている。
この調査は、潜在的な対策の概要と分析である。
論文 参考訳(メタデータ) (2024-06-12T07:55:32Z) - On Protecting the Data Privacy of Large Language Models (LLMs): A Survey [35.48984524483533]
LLM(Large Language Model)は、人間の言語を理解し、生成し、翻訳できる複雑な人工知能システムである。
LLMは大量のデータを処理して生成し、データプライバシを脅かす可能性がある。
論文 参考訳(メタデータ) (2024-03-08T08:47:48Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Personality Traits in Large Language Models [42.31355340867784]
コミュニケーションの有効性を決定する重要な要因は人格である。
本稿では,広く使用されている大規模言語モデル上でのパーソナリティテストの管理と検証のための,新しい,包括的・包括的心理学的・信頼性の高い方法論を提案する。
本稿では,計測・形成手法の適用と倫理的意味,特に責任あるAIについて論じる。
論文 参考訳(メタデータ) (2023-07-01T00:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。