論文の概要: Are LLMs Good Safety Agents or a Propaganda Engine?
- arxiv url: http://arxiv.org/abs/2511.23174v1
- Date: Fri, 28 Nov 2025 13:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.910863
- Title: Are LLMs Good Safety Agents or a Propaganda Engine?
- Title(参考訳): LLMは安全剤かプロパガンダエンジンか?
- Authors: Neemesh Yadav, Francesco Ortu, Jiarui Liu, Joeun Yook, Bernhard Schölkopf, Rada Mihalcea, Alberto Cazzaniga, Zhijing Jin,
- Abstract要約: PSPは、明らかに政治的文脈から、大規模言語モデルの拒絶行動を調べるために構築されたデータセットである。
PSPは、インターネット上で公開されている2つのデータソースから既存の検閲されたコンテンツをフォーマットすることで構築されている。
1)データ駆動型(PSPを暗黙化する)と表現レベルのアプローチ(政治概念を生かした)による7つのLSMにおける政治的感受性の影響,2)インジェクション攻撃(PIA)によるPSPに対するモデル脆弱性について検討する。
- 参考スコア(独自算出の注目度): 74.88607730071483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are trained to refuse to respond to harmful content. However, systematic analyses of whether this behavior is truly a reflection of its safety policies or an indication of political censorship, that is practiced globally by countries, is lacking. Differentiating between safety influenced refusals or politically motivated censorship is hard and unclear. For this purpose we introduce PSP, a dataset built specifically to probe the refusal behaviors in LLMs from an explicitly political context. PSP is built by formatting existing censored content from two data sources, openly available on the internet: sensitive prompts in China generalized to multiple countries, and tweets that have been censored in various countries. We study: 1) impact of political sensitivity in seven LLMs through data-driven (making PSP implicit) and representation-level approaches (erasing the concept of politics); and, 2) vulnerability of models on PSP through prompt injection attacks (PIAs). Associating censorship with refusals on content with masked implicit intent, we find that most LLMs perform some form of censorship. We conclude with summarizing major attributes that can cause a shift in refusal distributions across models and contexts of different countries.
- Abstract(参考訳): 大きな言語モデル(LLM)は有害なコンテンツへの対応を拒否するように訓練されている。
しかし、この行動が真にその安全政策の反映であるのか、国によって国際的に行われている政治的検閲の表示であるのかという体系的な分析は欠落している。
安全に影響された拒絶や政治的動機のある検閲の区別は困難で不明瞭である。
この目的のために、明示的に政治的文脈からLLMの拒絶行動を調べるために構築されたデータセットであるPSPを紹介する。
PSPは、インターネット上で公開されている2つのデータソースから既存の検閲されたコンテンツをフォーマットすることで構築されている。
研究は以下の通り。
1)データ駆動型(PSPの暗黙化)と表現レベルのアプローチ(政治概念の活用)による7つのLDMにおける政治的感受性の影響
2) PSP モデルに対するプロンプトインジェクション攻撃 (PIA) による脆弱性。
暗黙の意図を隠蔽した内容に対する検閲を拒絶することで、ほとんどのLLMが何らかの検閲を行うことがわかった。
我々は、異なる国のモデルや文脈にまたがる拒絶分布の変化を引き起こすおもな属性を要約して結論付ける。
関連論文リスト
- R1dacted: Investigating Local Censorship in DeepSeek's R1 Language Model [17.402774424821814]
報道によると、R1は中国の政治的にセンシティブなトピックに関する特定のプロンプトに答えることを拒否している。
我々は、R1によって検閲されるが、他のモデルでは検閲されない、厳格にキュレートされたプロンプトの大規模なセットを導入する。
我々はR1の検閲パターンを包括的に分析し、一貫性、トリガー、トピック間のバリエーション、フレーズのプロンプト、コンテキストを調べます。
論文 参考訳(メタデータ) (2025-05-19T02:16:56Z) - What Large Language Models Do Not Talk About: An Empirical Study of Moderation and Censorship Practices [46.30336056625582]
本研究は,大規模言語モデルが政治的話題に刺激された場合の回答や省略を拒否する程度について検討する。
我々の分析では、西欧諸国、中国、ロシアの14の最先端モデルが、国連(UN)の6つの公式言語すべてで引き起こされている。
論文 参考訳(メタデータ) (2025-04-04T09:09:06Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks [18.208272960774337]
LLM(Large Language Models)は、その安全性に対する幅広い懸念を引き起こしている。
近年の研究では, 微調整によりLLMの安全性の整合性を容易に除去できることが示されている。
我々は,多言語LLMにおける微調整攻撃の理解をさらに進める。
論文 参考訳(メタデータ) (2024-10-23T18:27:36Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem? [52.71988102039535]
セマンティック検閲は決定不能な問題として認識できることを示す。
我々は、知識のある攻撃者が不寛容なアウトプットを再構築できるため、これらの課題はセマンティックな検閲を超えて拡張されていると論じる。
論文 参考訳(メタデータ) (2023-07-20T09:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。