論文の概要: A Multilingual, Large-Scale Study of the Interplay between LLM Safeguards, Personalisation, and Disinformation
- arxiv url: http://arxiv.org/abs/2510.12993v2
- Date: Wed, 29 Oct 2025 13:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.290447
- Title: A Multilingual, Large-Scale Study of the Interplay between LLM Safeguards, Personalisation, and Disinformation
- Title(参考訳): LLM セーフガードとパーソナライゼーションと偽情報との相互作用に関する多言語・大規模研究
- Authors: João A. Leite, Arnav Arora, Silvia Gargova, João Luz, Gustavo Sampaio, Ian Roberts, Carolina Scarton, Kalina Bontcheva,
- Abstract要約: 本研究では,Large Language Models (LLMs) によるペルソナ対象の偽情報生成の大規模多言語解析を行った。
我々は、AI-TRAITSにおいて、英語、ロシア語、ポルトガル語、ヒンディー語という4つの言語にまたがる324の虚偽の物語と150の人口的ペルソナを持つ8つの最先端のLLMを推進します。
結果は、たとえ単純なパーソナライゼーションでも、脱獄の可能性が著しく増加することを示している。
- 参考スコア(独自算出の注目度): 12.577461004484604
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) can generate human-like disinformation, yet their ability to personalise such content across languages and demographics remains underexplored. This study presents the first large-scale, multilingual analysis of persona-targeted disinformation generation by LLMs. Employing a red teaming methodology, we prompt eight state-of-the-art LLMs with 324 false narratives and 150 demographic personas (combinations of country, generation, and political orientation) across four languages--English, Russian, Portuguese, and Hindi--resulting in AI-TRAITS, a comprehensive dataset of 1.6 million personalised disinformation texts. Results show that the use of even simple personalisation prompts significantly increases the likelihood of jailbreaks across all studied LLMs, up to 10 percentage points, and alters linguistic and rhetorical patterns that enhance narrative persuasiveness. Models such as Grok and GPT exhibited jailbreak rates and personalisation scores both exceeding 85%. These insights expose critical vulnerabilities in current state-of-the-art LLMs and offer a foundation for improving safety alignment and detection strategies in multilingual and cross-demographic contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間のような偽情報を生成することができるが、言語や人口統計学にまたがるコンテンツをパーソナライズする能力はまだ未熟である。
本研究では,LLMによるペルソナ標的情報生成の大規模多言語解析を行った。
324の虚偽の物語と150の人口的人格(国家、世代、政治的指向の組み合わせ)を4つの言語(英語、ロシア語、ポルトガル語、ヒンディー語)で組み合わせ、AI-TRAITS(個人化された偽情報テキストの包括的データセット)で分析する。
その結果、単純なパーソナライゼーションでも、研究対象のLLMに対してジェイルブレイクの可能性が大幅に増加し、最大10ポイントまで増加し、物語の説得力を高める言語的・修辞的パターンが変化することが示唆された。
GrokやGPTといったモデルはジェイルブレイク率とパーソナライゼーションスコアが85%を超えた。
これらの知見は、現在のLLMにおける重要な脆弱性を明らかにし、マルチリンガルおよびクロスデモグラフィーのコンテキストにおける安全性アライメントと検出戦略を改善する基盤を提供する。
関連論文リスト
- Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - LMLPA: Language Model Linguistic Personality Assessment [11.599282127259736]
大規模言語モデル(LLM)は、日常の生活や研究にますます利用されている。
与えられたLLMの性格を測定することは、現在課題である。
言語モデル言語パーソナリティアセスメント(LMLPA)は,LLMの言語的パーソナリティを評価するシステムである。
論文 参考訳(メタデータ) (2024-10-23T07:48:51Z) - Unique Security and Privacy Threats of Large Language Models: A Comprehensive Survey [63.4581186135101]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
プライバシーとセキュリティの問題は、そのライフサイクルを通じて明らかになっている。
この調査は、潜在的な対策の概要と分析である。
論文 参考訳(メタデータ) (2024-06-12T07:55:32Z) - On Protecting the Data Privacy of Large Language Models (LLMs): A Survey [35.48984524483533]
LLM(Large Language Model)は、人間の言語を理解し、生成し、翻訳できる複雑な人工知能システムである。
LLMは大量のデータを処理して生成し、データプライバシを脅かす可能性がある。
論文 参考訳(メタデータ) (2024-03-08T08:47:48Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Personality Traits in Large Language Models [42.31355340867784]
コミュニケーションの有効性を決定する重要な要因は人格である。
本稿では,広く使用されている大規模言語モデル上でのパーソナリティテストの管理と検証のための,新しい,包括的・包括的心理学的・信頼性の高い方法論を提案する。
本稿では,計測・形成手法の適用と倫理的意味,特に責任あるAIについて論じる。
論文 参考訳(メタデータ) (2023-07-01T00:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。